Verbinden von Excel mit Apache Hadoop mithilfe von Power Query

Eine der wichtigsten Features der Big Data-Lösung von Microsoft ist die Integration von Microsoft BI-Komponenten (Business Intelligence) in Apache Hadoop-Cluster in Azure HDInsight. Ein gutes Beispiel ist die Möglichkeit, Excel mithilfe von Microsoft Power Query für Excel-Add-Ins mit dem Azure Storage-Konto zu verbinden, das die dem Hadoop-Cluster zugeordneten Daten enthält. Dieser Artikel beschreibt die Einrichtung und Verwendung von Power Query für die Abfrage von Daten aus einem mit HDInsight verwalteten Hadoop-Cluster.

Voraussetzungen

  • Ein Apache Hadoop-Cluster in HDInsight. Weitere Informationen finden Sie unter Erste Schritte mit HDInsight unter Linux.
  • Eine Arbeitsstation mit Windows 10, Windows 7, Windows Server 2008 R2 oder einem späteren Betriebssystem
  • Microsoft 365 Apps for Enterprise, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone oder Office 2010 Professional Plus.

Installieren von Microsoft Power Query

Power Query kann Daten importieren, die von einem Hadoop-Auftrag, der in einem HDInsight-Cluster ausgeführt wird, ausgegeben bzw. generiert wurden.

Power Query wurde in Excel 2016 in das Menüband „Daten“ im Abschnitt zum Abrufen und Transformieren integriert. Laden Sie bei älteren Excel-Versionen Microsoft Power Query für Excel aus dem Microsoft Download Center herunter, und installieren Sie es.

Importieren von HDInsight-Daten in Excel

Das Power Query für Excel-Add-In erleichtert den Import von Daten aus Ihrem HDInsight-Cluster in Excel. Business Intelligence-Tools wie z. B. PowerPivot und Power Map dienen zur Inspektion, Analyse und Darstellung der Daten.

  1. Starten Sie Excel.

  2. Erstellen Sie eine neue leere Arbeitsmappe.

  3. Führen Sie je nach Excel-Version die folgenden Schritte aus:

    • Excel 2016

      • Wählen Sie >Daten>Daten abrufen>Aus Azure>Aus Azure HDInsight (HDFS) aus.

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Wählen Sie Power Query>Aus Azure>Aus Microsoft Azure HDInsight aus.

        HDI.PowerQuery.SelectHdiSource.

        Hinweis: Falls das Menü Power Query nicht angezeigt wird, klicken Sie auf Datei>Optionen>Add-Ins, und wählen Sie unten auf der Seite im Dropdownfeld Verwalten die Option COM Add-Ins aus. Klicken Sie auf die Schaltfläche Los... , und vergewissern Sie sich, dass das Optionsfeld des Power Query für Excel-Add-Ins markiert ist.

        Hinweis: Mit Power Query können Sie auch Daten aus dem Hadoop Distributed File System (HDFS) importieren. Wählen Sie dazu Aus anderen Quellen aus.

  4. Geben Sie im Dialogfeld Azure HDInsight (HDFS) im Textfeld Kontoname oder URL den Namen des mit dem Cluster verbundenen Azure Blob Storage-Kontos ein. Klicken Sie anschließend auf OK. Bei diesem Konto kann es sich um das Standardspeicherkonto oder ein verknüpftes Speicherkonto handeln. Das Format ist https://StorageAccountName.blob.core.windows.net/.

  5. Geben Sie unter Kontoschlüssel den Schlüssel für das Blob Storage-Konto ein, und wählen Sie dann Verbinden aus. (Sie müssen die Kontoinformationen nur beim ersten Zugriff auf diesen Speicher eingeben.)

  6. Doppelklicken Sie im Navigationsbereich links neben dem Query-Editor auf den Namen des mit dem Cluster verbundenen Blob Storage-Containers. Der Containername ist standardmäßig derselbe Name wie der Clustername.

  7. Suchen Sie HiveSampleData.txt in der Spalte Name (der Ordnerpfad lautet ../hive/warehouse/hivesampletable/ ), und wählen Sie Binär links neben „HiveSampleData.txt“ aus. „HiveSampleData.txt“ enthält alle Cluster. Sie können optional auch Ihre eigene Datei verwenden.

    HDI Excel power query import data.

  8. Bei Bedarf können Sie die Spaltennamen ändern. Wählen Sie Schließen & laden aus, wenn Sie fertig sind. Die Daten wurden in Ihre Arbeitsmappe geladen.

    HDI Excel power query imported table.

Nächste Schritte

In diesem Artikel haben Sie gelernt, wie Sie Daten aus HDInsight mithilfe von Power Query in Excel verwenden können. Auf ähnliche Weise können Sie Daten aus HDInsight für die Azure SQL-Datenbank abrufen. Außerdem können Sie Daten in HDInsight hochladen. Weitere Informationen erhalten Sie in den folgenden Artikeln: