Esercitazione: Analizzare dati di Apache Spark con Power BI in HDInsight

In questa esercitazione si apprenderà come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight.

In questa esercitazione apprenderai a:

  • Visualizzare i dati di Spark usando Power BI

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Prerequisiti

Verificare i dati

Il notebook Jupyter creato nell'esercitazione precedente include il codice per creare una tabella hvac. Questa tabella si basa sul file CSV disponibile in tutti i cluster HDInsight Spark all'indirizzo \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Usare la procedura seguente per verificare i dati.

  1. Da Jupyter Notebook incollare il codice seguente e quindi premere MAIUSC + INVIO. Il codice verifica l'esistenza delle tabelle.

    %%sql
    SHOW TABLES
    

    L'output sarà simile al seguente:

    Show tables in Spark.

    Se il notebook è stato chiuso prima di iniziare questa esercitazione, hvactemptable è stato eliminato e non è stato quindi incluso nell'output. Dagli strumenti BI è possibile accedere solo alle tabelle Hive archiviate nel metastore (indicato da False nella colonna isTemporary). In questa esercitazione si esegue la connessione alla tabella hvac creata.

  2. Incollare il codice seguente in una cella vuota e quindi premere MAIUSC + INVIO. Il codice verifica i dati nella tabella.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    L'output sarà simile al seguente:

    Show rows from hvac table in Spark.

  3. Nel menu File del notebook fare clic su Close and Halt (Chiudi e interrompi). Arrestare il notebook per rilasciare le risorse.

Visualizzare i dati

In questa sezione si usa Power BI per creare visualizzazioni, report e dashboard dai dati del cluster Spark.

Creare un report in Power BI Desktop

I primi passaggi nell'uso di Spark sono la connessione al cluster in Power BI Desktop, il caricamento dei dati dal cluster e la creazione di una visualizzazione basata su tali dati.

  1. Apri Power BI Desktop. Se si apre la schermata iniziale, chiuderla.

  2. Nella scheda Home passare a Recupera dati>Altro.

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. Immettere Spark nella casella di ricerca, selezionare Azure HDInsight Spark e quindi selezionare Connetti.

    Get data into Power BI from Apache Spark BI.

  4. Immettere l'URL del cluster (nel formato mysparkcluster.azurehdinsight.net) nella casella di testo Server.

  5. In Modalità Connettività dati selezionare DirectQuery. Selezionare OK.

    Con Spark è possibile usare entrambe le modalità di connettività dati. Se si usa DirectQuery, le modifiche si riflettono nei report senza l'aggiornamento dell'intero set di dati. Se si importano i dati, per visualizzare le modifiche è necessario aggiornare il set di dati. Per altre informazioni su come e quando usare DirectQuery, vedere Uso di DirectQuery in Power BI.

  6. Immettere le informazioni dell'account di accesso di HDInsight, quindi selezionare Connetti. Il nome account predefinito è admin.

  7. Selezionare la tabella hvac, attendere la visualizzazione dell'anteprima dei dati e quindi selezionare Carica.

    Spark cluster user name and password.

    Power BI Desktop ha le informazioni necessarie per connettersi al cluster Spark e caricare dati dalla tabella hvac. La tabella e le relative colonne sono visualizzate nel riquadro Campi.

  8. Visualizzare la variazione tra temperatura di destinazione e temperatura effettiva per ogni edificio:

    1. Nel riquadro VISUALIZZAZIONI selezionare Grafico ad aree.

    2. Trascinare il campo BuildingID in Assee trascinare i campi ActualTemp e TargetTemp in Valore.

      add value columns.

      Il diagramma è simile al seguente:

      area graph sum.

      Per impostazione predefinita, la visualizzazione mostra la somma di ActualTemp e TargetTemp. Selezionare la freccia verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni per osservare che è selezionato Somma.

    3. Selezionare le frecce verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni e quindi selezionare Media per ottenere una media della temperatura effettiva e di quella di destinazione per ogni edificio.

      average of values.

      La visualizzazione dei dati sarà simile a quella nello screenshot. Spostare il cursore sopra la visualizzazione per ottenere suggerimenti con i dati rilevanti.

      area graph .png " alt-text="area graph." border="true":::

  9. Passare a File>Salva, immettere il nome BuildingTemperature per il file e quindi selezionare Salva.

Pubblicare il report nel servizio Power BI (facoltativo)

Il servizio Power BI consente di condividere report e dashboard nell'organizzazione. In questa sezione prima si pubblicano i set di dati e il report, quindi si aggiunge il report a un dashboard. I dashboard vengono in genere usati per concentrarsi su un subset di dati in un report. Nel report è presente una sola visualizzazione, ma è comunque utile eseguire la procedura.

  1. Apri Power BI Desktop.

  2. Nella scheda Home seleziona Pubblica.

    Publish from Power BI Desktop. Desktop" border="true":::

  3. Selezionare un'area di lavoro in cui pubblicare il set di dati e il report e quindi fare clic su Seleziona. Nella figura seguente è selezionato il valore predefinito Area di lavoro personale.

    Select workspace to publish dataset and report to.

  4. Al termine della pubblicazione, selezionare Apri 'BuildingTemperature.pbix' in Power BI.

    Publish success, click to enter credentials.

  5. Nel servizio Power BI selezionare Immettere le credenziali.

    Enter credentials in Power BI service. " border="true":::

  6. Selezionare Modifica credenziali.

    Edit credentials in Power BI service.

  7. Immettere le informazioni dell'account di accesso di HDInsight e quindi fare clic su Accedi. Il nome account predefinito è admin.

    Sign in to Spark cluster. Cluster Spark" border="true":::

  8. Nel riquadro a sinistra passare ad Aree di lavoro>Area di lavoro personale>REPORT e quindi selezionare BuildingTemperature.

    Report listed under reports in left pane.

    Il report BuildingTemperature è visualizzato anche in SET DI DATI nel riquadro a sinistra.

    L'oggetto visivo creato in Power BI Desktop è ora disponibile nel servizio Power BI.

  9. Passare il puntatore del mouse sopra la visualizzazione e quindi fare clic sull'icona a forma di puntina nell'angolo in alto a destra.

    Report in the Power BI service.

  10. Selezionare "Nuovo dashboard", immettere il nome Building temperature e quindi fare clic su Aggiungi.

    Pin to new dashboard. to new dashboard" border="true":::

  11. All'interno del report selezionare Vai al dashboard.

L'oggetto visivo è stato aggiunto al dashboard. È possibile aggiungere altri oggetti visivi al report e aggiungerli poi allo stesso dashboard. Per altre informazioni su report e dashboard, vedere Report in Power BI e Dashboard in Power BI.

Pulire le risorse

Al termine dell'esercitazione, è consigliabile eliminare il cluster. Con HDInsight, i dati vengono archiviati in Archiviazione di Azure ed è possibile eliminare tranquillamente un cluster quando non è in uso. Vengono addebitati i costi anche per i cluster HDInsight che non sono in uso. Poiché i costi per il cluster sono decisamente superiori a quelli per l'archiviazione, eliminare i cluster quando non vengono usati è una scelta economicamente conveniente.

Per eliminare un cluster, vedere Eliminare un cluster HDInsight tramite browser, PowerShell o l'interfaccia della riga di comando di Azure.

Passaggi successivi

In questa esercitazione si è appreso come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight. Passare al prossimo articolo per vedere che è possibile creare un'applicazione di apprendimento automatico.