Självstudie: Analysera Apache Spark-data med Power BI i HDInsight

I den här självstudien får du lära dig hur du använder Microsoft Power BI för att visualisera data i ett Apache Spark-kluster i Azure HDInsight.

I den här självstudien lär du dig att:

  • Visualisera Spark-data med Power BI

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Förutsättningar

Kontrollera datan

Den Jupyter Notebook-anteckningsbok som du skapade i föregående självstudie innehåller kod för att skapa en hvac-tabell. Den här tabellen baseras på CSV-filen som är tillgänglig på alla HDInsight Spark-kluster på \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Följ stegen nedan för att verifiera datan.

  1. Från Jupyter Notebook klistrar du in följande kod och trycker sedan på SKIFT + RETUR. Koden kontrollerar att tabellerna finns.

    %%sql
    SHOW TABLES
    

    Utdata ser ut så här:

    Skärmbild som visar tabeller i Spark.

    Om du har stängt anteckningsboken innan du startar självstudien så har hvactemptable rensats, så den ingår inte i utdatan. Endast Hive-tabeller som lagras i metaarkivet (anges med False under kolumnen isTemporary) kan nås från BI-verktygen. I den här självstudien kommer du ansluta till hvac-tabellen som du skapade.

  2. Klistra in följande kod i en tom cell och tryck sedan på SKIFT+RETUR. Koden verifierar datan i tabellen.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Utdata ser ut så här:

    Skärmbild som visar rader från hvac-tabellen i Spark.

  3. Välj Stäng och stoppa på anteckningsbokens Arkiv-meny. Stäng anteckningsboken för att frigöra resurser.

Visualisera datan

I det här avsnittet använder du Power BI för att skapa visualiseringar, rapporter och instrumentpaneler från Spark-klusterdata.

Skapa en rapport i Power BI Desktop

De första stegen i att arbeta med Spark är att ansluta till klustret i Power BI Desktop, läsa in data från klustret och skapa en grundläggande visualisering baserat på dessa data.

  1. Öppna Power BI Desktop. Stäng välkomstskärmen för start om den öppnas.

  2. Gå till Hämta data>mer på fliken Start...

    Skärmbild som visar hämta data till Power BI Desktop från HDInsight Apache Spark.

  3. Ange Spark i sökrutan, välj Azure HDInsight Spark och välj sedan Anslut.

    Skärmbild som visar hämta data till Power BI från Apache Spark BI.

  4. Ange din kluster-URL (i formuläret mysparkcluster.azurehdinsight.net) i textrutan Server .

  5. Under Dataanslutningsläge väljer du DirectQuery. Välj sedan OK.

    Du kan använda valfritt dataanslutningsläge med Spark. Om du använder DirectQuery visas ändringarna i rapporter utan att hela datamängden uppdateras. Om du importerar data måste du uppdatera datamängden för att se ändringarna. Mer information om hur och när du ska använda DirectQuery finns i Använda DirectQuery i Power BI.

  6. Ange information om HDInsight-inloggningskontot och välj sedan Anslut. Standardkontonamnet är admin.

  7. Välj tabellen hvac , vänta och se en förhandsgranskning av data och välj sedan Läs in.

    Skärmbild som visar Användarnamn och lösenord för Spark-kluster.

    Power BI Desktop har den information som behövs för att ansluta till Spark-klustret och läsa in data från hvac-tabellen. Tabellen och dess kolumner visas i fönstret Fält.

  8. Visualisera skillnaden mellan måltemperatur och faktisk temperatur för varje byggnad:

    1. I fönstret VISUALISERINGAR väljer du Ytdiagram.

    2. Dra fältet BuildingID till Axel och dra fälten ActualTemp och TargetTemp till Värde.

      Skärmbild som visar kolumner för att lägga till värde.

      Diagrammet ser ut så här:

      Skärmbild som visar ytgrafsumma.

      Som standard visar visualiseringen summan för ActualTemp och TargetTemp. Välj nedåtpilen bredvid ActualTemp och TragetTemp i fönstret Visualiseringar. Du kan se att Sum är markerat.

    3. Välj nedåtpilarna bredvid ActualTemp och TragetTemp i fönstret Visualiseringar, välj Genomsnitt för att få ett genomsnitt av faktiska temperaturer och måltemperaturer för varje byggnad.

      Skärmbild som visar medelvärdet av värden.

      Din datavisualisering bör likna den på skärmbilden. Flytta markören över visualiseringen för att få verktygstips med relevanta data.

      Skärmbild som visar ytdiagram

  9. Gå till Spara fil>, ange namnet BuildingTemperature på filen och välj sedan Spara.

Publicera rapporten till Power BI-tjänsten (valfritt)

Med Power BI-tjänsten kan du dela rapporter och instrumentpaneler i din organisation. I det här avsnittet publicerar du först datamängden och rapporten. Sedan fäster du rapporten på en instrumentpanel. Instrumentpaneler används vanligtvis för att fokusera på en delmängd data i en rapport. Du har bara en visualisering i rapporten, men det är fortfarande användbart att gå igenom stegen.

  1. Öppna Power BI Desktop.

  2. Från fliken Start, välj Publicera.

    Skärmbild som visar publicering från Power BI Desktop.

  3. Välj en arbetsyta som du vill publicera datamängden och rapporten till och välj sedan Välj. I följande bild är standardinställningen Min arbetsyta markerad.

    Skärmbild som visar hur du väljer arbetsyta att publicera datamängd och rapportera till.

  4. När publiceringen har slutförts väljer du Öppna "BuildingTemperature.pbix" i Power BI.

    Skärmbild som visar att publiceringen lyckades, klicka för att ange autentiseringsuppgifter.

  5. I Power BI-tjänst väljer du Ange autentiseringsuppgifter.

    Skärmbild som visar hur du anger autentiseringsuppgifter i Power BI-tjänst.

  6. Välj Redigera autentiseringsuppgifter.

    Skärmbild som visar Redigera autentiseringsuppgifter i Power BI-tjänst.

  7. Ange information om HDInsight-inloggningskontot och välj sedan Logga in. Standardkontonamnet är admin.

    Skärmbild som visar Logga in på Spark-kluster.

  8. I den vänstra rutan går du till Arbetsytor>Mina arbetsyterapporter> och väljer sedan BuildingTemperature.

    Skärmbild som visar Rapporten visas under rapporter i det vänstra fönstret.

    Du bör också se BuildingTemperature under DATAMÄNGDER i den vänstra rutan.

    Det visuella objektet som du skapade i Power BI Desktop är nu tillgängligt i Power BI-tjänsten.

  9. Hovra markören över visualiseringen och välj sedan fästikonen i det övre högra hörnet.

    Skärmbild som visar rapporten i Power BI-tjänst.

  10. Välj "Ny instrumentpanel", ange namnet Building temperatureoch välj sedan Fäst.

    Skärmbild som visar fäst på ny instrumentpanel.

  11. I rapporten väljer du Gå till instrumentpanel.

Ditt visuella objekt är fastsatt på instrumentpanelen. Du kan lägga till fler visuella objekt i rapporten och fästa dem på samma instrumentpanel. Mer information om rapporter och instrumentpaneler finns i Rapporter i Power BI och Instrumentpaneler i Power BI.

Rensa resurser

När du har slutfört vägledningen kanske du vill ta bort klustret. Med HDInsight lagras dina data i Azure Storage, så att du på ett säkert sätt kan ta bort ett kluster när de inte används. Du debiteras också för ett HDInsight-kluster, även om det inte används. Eftersom avgifterna för klustret är många gånger högre än avgifterna för lagring är det ekonomiskt klokt att ta bort kluster när de inte används.

Information om hur du tar bort ett kluster finns i Ta bort ett HDInsight-kluster med webbläsaren, PowerShell eller Azure CLI.

Nästa steg

I den här självstudien har du lärt dig hur du använder Microsoft Power BI för att visualisera data i ett Apache Spark-kluster i Azure HDInsight. Gå vidare till nästa artikel för att se att du kan skapa ett maskininlärningsprogram.