Creare cluster HDInsight con Azure Data Lake Storage Gen1 tramite il portale di Azure

Informazioni su come usare il portale di Azure per creare un cluster HDInsight con Azure Data Lake Storage Gen1 come risorsa di archiviazione predefinita o come risorsa di archiviazione aggiuntiva. Anche se l'archiviazione aggiuntiva è facoltativa per un cluster HDInsight, è consigliabile archiviare i dati aziendali negli account di archiviazione aggiuntivi.

Prerequisiti

Prima di iniziare, assicurarsi di aver soddisfatto i requisiti seguenti:

  • Una sottoscrizione di Azure. Vedere Ottenere una versione di valutazione gratuita di Azure.
  • Un account Azure Data Lake Storage Gen1. Seguire le istruzioni fornite in Introduzione all'uso di Azure Data Lake Storage Gen1 tramite il portale di Azure. È anche necessario creare una cartella radice nell'account. In questo articolo viene usata una cartella radice denominata /clusters .
  • un'entità servizio Microsoft Entra. Questa guida pratica fornisce istruzioni su come creare un'entità servizio in Microsoft Entra ID. Tuttavia, per creare un'entità servizio, è necessario essere un amministratore di Microsoft Entra. Gli amministratori possono ignorare questo prerequisito e continuare.

Nota

È possibile creare un'entità servizio solo se si è un amministratore di Microsoft Entra. L'amministratore di Microsoft Entra deve creare un'entità servizio prima di poter creare un cluster HDInsight con Data Lake Storage Gen1. Inoltre, l'entità servizio deve essere creata usando un certificato, come descritto in Creare un'entità servizio con certificato.

Creazione di un cluster HDInsight

In questa sezione viene creato un cluster HDInsight con Data Lake Storage Gen1 come risorsa di archiviazione predefinita o aggiuntiva. Questo articolo è incentrato solo sulla configurazione di Data Lake Storage Gen1. Per informazioni generali sulla creazione di cluster e le relative procedure, vedere Creare cluster Hadoop basati su Linux in HDInsight.

Creare un cluster con Data Lake Storage Gen1 come risorsa di archiviazione predefinita

Per creare un cluster HDInsight con un Data Lake Storage Gen1 come account di archiviazione predefinito:

  1. Accedere al portale di Azure.

  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.

  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Azure Data Lake Storage Gen1 e quindi immettere le informazioni seguenti:

    Impostazioni dell'account di archiviazione HDInsight

    • Seleziona account Data Lake Store: selezionare un account Azure Data Lake Storage Gen1 esistente. È necessario un account Azure Data Lake Storage Gen1 esistente. Vedere Prerequisiti.
    • Percorso radice: immettere un percorso in cui archiviare i file specifici del cluster. Nello screenshot è /clusters/myhdiadlcluster/, in cui la cartella /clusters deve esistere e il portale crea la cartella myhdicluster. myhdicluster è il nome del cluster.
    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Storage Gen1 e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso a Data Lake Storage Gen1.
    • Account di archiviazione aggiuntivi: aggiungere account di archiviazione di Azure come account di archiviazione aggiuntivi per il cluster. Per aggiungere altri account Data Lake Storage Gen1, assegnare al cluster le autorizzazioni per i dati in più account Data Lake Storage Gen1 durante la configurazione di un account Data Lake Storage Gen1 come tipo di archiviazione primario. Vedere Configurare l'accesso a Data Lake Storage Gen1.
  4. In Accesso a Data Lake Store fare clic su Seleziona e continuare con la creazione del cluster come descritto in Creare cluster Hadoop in HDInsight.

Creare un cluster con Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva

Le istruzioni seguenti creano un cluster HDInsight con un account di archiviazione BLOB di Azure come risorsa di archiviazione predefinita e un account di archiviazione con Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva.

Per creare un cluster HDInsight con Data Lake Storage Gen1 come account di archiviazione aggiuntivo:

  1. Accedere al portale di Azure.

  2. Seguire Creare i cluster per informazioni generali sulla creazione di cluster HDInsight.

  3. Nel pannello Archiviazione, in Tipo di archiviazione primario selezionare Archiviazione di Azure e quindi immettere le informazioni seguenti:

    Impostazioni aggiuntive dell'account di archiviazione di HDInsight

    • Metodo di selezione : per specificare un account di archiviazione che fa parte della sottoscrizione di Azure, selezionare Sottoscrizioni personali e quindi selezionare l'account di archiviazione. Per specificare un account di archiviazione esterno alla sottoscrizione di Azure, selezionare Chiave di accesso, quindi immettere le informazioni per l'account di archiviazione esterno.

    • Contenitore predefinito : usare il valore predefinito o specificare il proprio nome.

    • Account di archiviazione aggiuntivi : aggiungere altri account di archiviazione di Azure come risorsa di archiviazione aggiuntiva.

    • Accesso a Data Lake Store: configurare l'accesso tra l'account Data Lake Storage Gen1 e il cluster HDInsight. Per istruzioni, vedere Configurare l'accesso Data Lake Storage Gen1.

Configurare l'accesso a Data Lake Storage Gen1

In questa sezione viene configurato Data Lake Storage Gen1 l'accesso dai cluster HDInsight usando un'entità servizio Microsoft Entra.

Specificare un'entità servizio

Dal portale di Azure è possibile usare un'entità servizio esistente o crearne una nuova.

Per creare un'entità servizio dal portale di Azure:

  1. Vedere Creare un'entità servizio e certificati usando Microsoft Entra ID.

Per usare un'entità servizio esistente dal portale di Azure:

  1. L'entità servizio deve disporre delle autorizzazioni di proprietario per l'account di archiviazione. Vedere Configurare le autorizzazioni per l'entità servizio come proprietario nell'account di archiviazione.

  2. Selezionare Accesso a Data Lake Store.

  3. Nel pannello di accesso Data Lake Storage Gen1 selezionare Usa esistente.

  4. Selezionare Entità servizio e quindi selezionare un'entità servizio.

  5. Caricare il certificato (file PFX) associato all'entità servizio selezionata e quindi immettere la password del certificato.

    Aggiungere entità servizio a cluster HDInsight

  6. Selezionare Accesso per configurare l'accesso alle cartelle. Vedere Configurare le autorizzazioni file.

Configurare le autorizzazioni per l'entità servizio come proprietario nell'account di archiviazione

  1. Nel pannello Controllo di accesso(IAM) dell'account di archiviazione fare clic su Aggiungi un'assegnazione di ruolo.
  2. Nel pannello Aggiungi un'assegnazione di ruolo selezionare Ruolo come "proprietario" e selezionare il nome SPN e fare clic su Salva.

Configurare le autorizzazioni file

La configurazione è diversa a seconda che l'account venga usato come risorsa di archiviazione predefinita o come account di archiviazione aggiuntivo:

  • Uso come risorsa di archiviazione predefinita

    • Autorizzazione a livello di radice dell'account Data Lake Storage Gen1
    • Autorizzazione a livello di radice dell'archiviazione cluster HDInsight. Ad esempio, la cartella /clusters usata prima nell'esercitazione.
  • Uso come risorsa di archiviazione aggiuntiva

    • Autorizzazione a livello delle cartelle in cui è necessario l'accesso ai file.

Per assegnare l'autorizzazione all'account di archiviazione con Data Lake Storage Gen1 a livello radice:

  1. Nel pannello di accesso Data Lake Storage Gen1 selezionare Accesso. Viene aperto il pannello per la Selezionare le autorizzazioni file. Elenca tutti gli account di archiviazione nella sottoscrizione.

  2. Passare il puntatore del mouse (non fare clic) sul nome dell'account con Data Lake Storage Gen1 per rendere visibile la casella di controllo, quindi selezionare la casella di controllo.

    Selezionare le autorizzazioni per i file

    Per impostazione predefinita, sono selezionate tutte le opzioni READ, WRITE, AND EXECUTE .

  3. Fare clic su Seleziona nella parte inferiore della pagina.

  4. Selezionare Esegui per assegnare l'autorizzazione.

  5. Selezionare Fine.

Per assegnare l'autorizzazione a livello radice del cluster HDInsight:

  1. Nel pannello di accesso Data Lake Storage Gen1 selezionare Accesso. Viene aperto il pannello per la Selezionare le autorizzazioni file. Elenca tutti gli account di archiviazione con Data Lake Storage Gen1 nella sottoscrizione.
  2. Nel pannello Seleziona autorizzazioni file selezionare l'account di archiviazione con Data Lake Storage Gen1 nome per visualizzarne il contenuto.
  3. Selezionare la radice di archiviazione cluster HDInsight selezionando la casella di controllo a sinistra della cartella. In base allo screenshot precedente, la radice di archiviazione del cluster è la cartella /clusters specificata durante la selezione di Data Lake Storage Gen1 come risorsa di archiviazione predefinita.
  4. Impostare le autorizzazioni per la cartella. Per impostazione predefinita, sono selezionate lettura, scrittura ed esecuzione.
  5. Fare clic su Seleziona nella parte inferiore della pagina.
  6. Selezionare Run (Esegui).
  7. Selezionare Fine.

Se si usa Data Lake Storage Gen1 come risorsa di archiviazione aggiuntiva, è necessario assegnare autorizzazioni solo per le cartella a cui si vuole accedere dal cluster HDInsight. Nello screenshot seguente, ad esempio, si fornisce l'accesso solo alla cartella mynewfolder in un account di archiviazione con Data Lake Storage Gen1.

Assegnare le autorizzazioni dell'entità servizio al cluster HDInsight

Verificare la configurazione del cluster

Al termine della configurazione del cluster, nel pannello del cluster verificare i risultati eseguendo uno o entrambi i passaggi seguenti:

  • Per verificare che l'archiviazione associata per il cluster sia l'account con Data Lake Storage Gen1 specificato, selezionare Account di archiviazione nel riquadro sinistro.

    Verificare l'archiviazione associata

  • Per verificare che l'entità servizio sia associata correttamente al cluster HDInsight, selezionare Data Lake Storage Gen1 accesso nel riquadro sinistro.

    Verificare l'entità servizio

Esempio

Dopo aver configurato il cluster con Data Lake Storage Gen1 come risorsa di archiviazione, vedere questi esempi di come usare il cluster HDInsight per analizzare i dati archiviati in Data Lake Storage Gen1.

Eseguire una query Hive sui dati in un Data Lake Storage Gen1 (come archiviazione primaria)

Per eseguire una query Hive, usare l'interfaccia delle visualizzazioni Hive disponibile nel portale di Ambari. Per istruzioni su come usare le visualizzazioni Hive di Ambari, vedere Usare la visualizzazione Hive con Hadoop in HDInsight.

Quando si utilizzano dati in un Data Lake Storage Gen1, sono disponibili alcune stringhe da modificare.

Se si usa, ad esempio, il cluster creato con Data Lake Storage Gen1 come archiviazione primaria, il percorso dei dati è: adl:// data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file<. Una query Hive per creare una tabella da dati di esempio archiviati nella Data Lake Storage Gen1 è simile all'istruzione seguente:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrizioni:

  • adl://hdiadlsg1storage.azuredatalakestore.net/è la radice dell'account con Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster è la radice dei dati del cluster specificata durante la creazione del cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ è il percorso del file di esempio usato nella query.

Eseguire una query Hive sui dati in un Data Lake Storage Gen1 (come archiviazione aggiuntiva)

Se il cluster creato usa l'archiviazione BLOB come archiviazione predefinita, i dati di esempio non sono contenuti nell'account di archiviazione con Data Lake Storage Gen1 usati come archiviazione aggiuntiva. In tal caso, trasferire prima i dati dall'archiviazione BLOB all'account di archiviazione con Data Lake Storage Gen1 e quindi eseguire le query, come illustrato nell'esempio precedente.

Per informazioni su come copiare i dati dall'archiviazione BLOB a un account di archiviazione con Data Lake Storage Gen1, vedere gli articoli seguenti:

Usare Data Lake Storage Gen1 con un cluster Spark

È possibile usare un cluster Spark per eseguire processi Spark nei dati archiviati in un Data Lake Storage Gen1. Per altre informazioni, vedere Usare il cluster HDInsight Spark per analizzare i dati in Data Lake Storage Gen1.

Usare Data Lake Storage Gen1 in una topologia Storm

Vedi anche