Öğretici: HDInsight'ta Power BI kullanarak Apache Spark verilerini analiz etme

Bu öğreticide, Azure HDInsight'ta Apache Spark kümesindeki verileri görselleştirmek için Microsoft Power BI kullanmayı öğreneceksiniz.

Bu öğreticide aşağıdakilerin nasıl yapılacağını öğreneceksiniz:

  • Power BI kullanarak Spark verilerini görselleştirme

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Önkoşullar

Verileri doğrulama

Önceki öğreticide oluşturduğunuz Jupyter Not Defteri, tablo oluşturmaya hvac yönelik kodu içerir. Bu tablo, konumundaki \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csvtüm HDInsight Spark kümelerinde kullanılabilen CSV dosyasını temel alır. Verileri doğrulamak için aşağıdaki yordamı kullanın.

  1. Jupyter Not Defteri'nden aşağıdaki kodu yapıştırın ve SHIFT + ENTER tuşlarına basın. Kod, tabloların varlığını doğrular.

    %%sql
    SHOW TABLES
    

    Çıktı şuna benzer:

    Show tables in Spark.

    Bu öğreticiye başlamadan önce not defterini kapattıysanız, hvactemptable silinir ve bu nedenle çıktıya eklenmez. Yalnızca meta veri deposunda depolanmış Hive tablolarına (isTemporary sütunu altında False ile gösterilir) BI araçlarından erişilebilir. Bu öğreticide, oluşturduğunuz hvac tablosuna bağlanacaksınız.

  2. Aşağıdaki kodu boş bir hücreye yapıştırın ve sonra SHIFT + ENTER tuşlarına basın. Kod, tablodaki verileri doğrular.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Çıktı şuna benzer:

    Show rows from hvac table in Spark.

  3. Not defterindeki Dosya menüsünden Kapat ve Durdur’u seçin. Kaynakları serbest bırakmak için not defterini kapatın.

Verileri görselleştirme

Bu bölümde Power BI kullanarak, Spark kümesi verilerinden görselleştirme, rapor ve panolar oluşturacaksınız.

Power BI Desktop’ta rapor oluşturma

Spark ile çalışmanın ilk adımları, Power BI Desktop’ta kümeye bağlanmak, kümeden veri yüklemek ve bu verileri temel alarak basit bir görselleştirme oluşturmaktır.

  1. Power BI Desktop açın. Açılırsa başlangıç giriş ekranını kapatın.

  2. Giriş sekmesinden Daha Fazla Veri>Al... öğesine gidin.

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. Arama kutusuna girinSpark, Azure HDInsight Spark'ı ve ardından Bağlan'ı seçin.

    Get data into Power BI from Apache Spark BI.

  4. Sunucu metin kutusuna küme URL'nizi (formdamysparkcluster.azurehdinsight.net) girin.

  5. Veri bağlantısı modu altında DirectQuery'yi seçin. Ardından Tamam'ı seçin.

    Spark ile herhangi bir veri bağlantısı modunu kullanabilirsiniz. DirectQuery kullanırsanız, değişiklikler tüm veri kümesi yenilenmeden raporlara yansıtılır. Verileri içeri aktarırsanız, değişiklikleri görmek için veri kümesini yenilemeniz gerekir. DirectQuery’nin nasıl ve ne zaman kullanılacağı hakkında daha fazla bilgi için bkz. Power BI’da DirectQuery kullanma.

  6. HDInsight oturum açma hesabı bilgilerini girin ve Bağlan'ı seçin. Varsayılan hesap adı admin’dir.

  7. hvac Tabloyu seçin, verilerin önizlemesini görmek için bekleyin ve ardından Yükle'yi seçin.

    Spark cluster user name and password.

    Power BI Desktop, Spark kümesine bağlanmak ve hvac tablosundan verileri yüklemek için gereken bilgilere sahiptir. Tablo ve sütunları, Alanlar bölmesinde gösterilir.

  8. Her bina için hedef sıcaklık ile gerçek sıcaklık arasındaki farkı görselleştirin:

    1. GÖRSELLEŞTİRMELER bölmesinde Alan Grafiği’ni seçin.

    2. BuildingID alanını Eksen’e, ActualTemp ve TargetTemp alanlarını ise Değer’e sürükleyin.

      add value columns.

      Diyagram şuna benzer:

      area graph sum.

      Varsayılan olarak görselleştirme, ActualTemp ve TargetTemp değerlerinin toplamını gösterir. Görselleştirmeler bölmesinde ActualTemp ve TragetTemp'in yanındaki aşağı oku seçin; Toplam'ın seçili olduğunu görebilirsiniz.

    3. Görselleştirmeler bölmesinde ActualTemp ve TragetTemp'in yanındaki aşağı okları seçin, her bina için gerçek ve hedef sıcaklıkların ortalamasını almak için Ortalama'yı seçin.

      average of values.

      Veri görselleştirmeniz, ekran görüntüsünde gösterilene benzer olmalıdır. İlgili verilere ilişkin araç ipuçları almak üzere imlecinizi görselleştirmenin üzerine getirin.

      area graph .png " alt-text="area graph." border="true":::

  9. Dosya>Kaydet'e gidin, dosyanın adını BuildingTemperature girin ve Kaydet'i seçin.

Raporu Power BI Hizmetinde yayımlama (isteğe bağlı)

Power BI hizmeti, raporları ve panoları kuruluşunuzda paylaşmanıza olanak tanır. Bu bölümde, ilk olarak veri kümesini ve raporu yayımlayacaksınız. Ardından, raporu bir panoya sabitleyeceksiniz. Panolar genellikle bir rapordaki verilerin bir alt kümesine odaklanmak için kullanılır. Raporunuzda yalnızca bir görselleştirmeniz var, ancak yine de adımları ilerletmek yararlı olabilir.

  1. Power BI Desktop açın.

  2. Giriş sekmesinden Yayımla'yı seçin.

    Publish from Power BI Desktop. Desktop" border="true":::

  3. Veri kümenizi ve raporunuzu yayımlamak için bir çalışma alanı seçin ve ardından Seç'i seçin. Aşağıdaki görüntüde varsayılan Çalışma Alanım seçilidir.

    Select workspace to publish dataset and report to.

  4. Yayımlama başarılı olduktan sonra Power BI'da 'BuildingTemperature.pbix' dosyasını açın'ı seçin.

    Publish success, click to enter credentials.

  5. Power BI hizmeti Kimlik bilgilerini girin'i seçin.

    Enter credentials in Power BI service. " border="true":::

  6. Kimlik bilgilerini düzenle'yi seçin.

    Edit credentials in Power BI service.

  7. HDInsight oturum açma hesabı bilgilerini girin ve oturum aç'ı seçin. Varsayılan hesap adı admin’dir.

    Sign in to Spark cluster. Spark kümesi" border="true":::

  8. Sol bölmede Çalışma Alanları>Çalışma Alanım>RAPORLARI'na gidin ve BuildingTemperature'ı seçin.

    Report listed under reports in left pane.

    BinaSıcaklığı değerinin sol bölmedeki VERİ KÜMELERİ altında da listelendiğini göreceksiniz.

    Power BI Desktop’ta oluşturduğunuz görsel artık Power BI hizmetinde kullanılabilir.

  9. İmlecinizi görselleştirmenin üzerine getirin ve sağ üst köşedeki raptiye simgesini seçin.

    Report in the Power BI service.

  10. "Yeni pano" öğesini seçin, adını Building temperaturegirin ve sabitle'yi seçin.

    Pin to new dashboard. to new dashboard" border="true":::

  11. Raporda Panoya git'i seçin.

Görseliniz panoya sabitlenir. Rapora başka görseller ekleyebilir ve bu görselleri aynı panoya sabitleyebilirsiniz. Raporlar ve panolar hakkında daha fazla bilgi için bkz. Power BI'daki Raporlar ve Power BI'daki Panolar.

Kaynakları temizleme

Öğreticiyi tamamladıktan sonra kümeyi silmek isteyebilirsiniz. HDInsight ile verileriniz Azure Depolama'de depolanır, böylece kullanılmadığında kümeyi güvenle silebilirsiniz. Kullanımda olmasa bile HDInsight kümesi için de ücretlendirilirsiniz. Küme ücretleri depolama ücretlerinden çok daha fazla olduğundan, kullanımda olmayan kümeleri silmek ekonomik bir anlam ifade eder.

Kümeyi silmek için bkz . Tarayıcınızı, PowerShell'i veya Azure CLI'yı kullanarak HDInsight kümesini silme.

Sonraki adımlar

Bu öğreticide, Azure HDInsight'ta Apache Spark kümesindeki verileri görselleştirmek için Microsoft Power BI kullanmayı öğrendiniz. Makine öğrenmesi uygulaması oluşturabileceğinizi görmek için sonraki makaleye ilerleyin.