Ereignisgesteuerte Analysen mit Azure Data Lake Storage Gen2

Veröffentlicht am 26 Juni, 2019

Senior Program Manager, Azure Storage

Die meisten modernen Unternehmen nutzen für die Echtzeit- und Batchverarbeitung Analysepipelines. Ein gemeinsames Merkmal dieser Pipelines ist, dass Daten in unregelmäßigen Abständen aus verschiedensten Quellen ankommen. Dies sorgt für zusätzliche Komplexität, da die Pipeline für die zeitnahe Verarbeitung der Daten orchestriert werden muss.

Die Antwort auf diese Herausforderungen ist das Entwickeln einer entkoppelten ereignisgesteuerten Pipeline mithilfe von serverlosen Komponenten, die auf Änderungen der Daten beim Auftreten reagiert.

Ein integraler Bestandteil jeder Analysepipeline ist der Data Lake. Azure Data Lake Storage Gen2 bietet sicheren, kosteneffektiven und skalierbaren Speicher für ankommende strukturierte, teilstrukturierte und unstrukturierte Daten aus verschiedenen Quellen. Durch die Leistung und globale Verfügbarkeit sowie das Partnerökosystem ist Azure Data Lake Storage Gen2 die Plattform erster Wahl für Analysekunden und -partner auf der ganzen Welt. Der Aspekt der Ereignisverarbeitung ist ebenfalls wichtig. Mit Azure Event Grid, einem vollständig verwalteten Dienst zur Ereignisweiterleitung, Azure Functions, einer Engine für serverloses Computing, und Azure Logic Apps, einer Engine für serverlose Workfloworchestrierung, sind ereignisbasierte Verarbeitung und Workflows, die in Echtzeit auf die Ereignisse reagieren, einfach umzusetzen.

Wir freuen uns sehr, heute bekanntzugeben, dass sich die Integration von Azure Data Lake Storage Gen2 in Azure Event Grid in der Vorschauphase befindet! Azure Data Lake Storage Gen2 kann dadurch jetzt Ereignisse generieren, die von Event Grid verarbeitet und an Abonnenten mit Webhooks, Azure Event Hubs, Azure Functions und Logic Apps als Endpunkte weitergeleitet werden können. Mit dieser Möglichkeit können einzelne Änderungen an Dateien und Verzeichnissen in Azure Data Lake Storage Gen2 automatisch erfasst und Datentechnikern zur Verfügung gestellt werden, um funktionsstarke Big Data-Analyseplattformen mit ereignisgesteuerten Architekturen zu erstellen.

Modernes Data Warehouse

Das vorstehende Diagramm zeigt eine Referenzarchitektur für eine moderne Data Warehouse-Pipeline, die auf Azure Data Lake Storage Gen2 und serverlosen Azure-Komponenten aufbaut. Daten aus verschiedenen Quellen kommen über Azure Data Factory und andere Datenverschiebungstools bei Azure Data Lake Storage Gen2 an. Azure Data Lake Storage Gen2 generiert Ereignisse für die Erstellung neuer Dateien, Updates, Umbenennungen oder Lösungen. Diese Ereignisse werden über Event Grid und Azure Functions an Azure Databricks weitergeleitet. Ein Databricks-Auftrag verarbeitet die Datei und schreibt die Ausgabe zurück in Azure Data Lake Storage Gen2. Dabei veröffentlicht Azure Data Lake Storage Gen2 eine Benachrichtigung an Event Grid, die eine Azure Functions-Funktion zum Kopieren von Daten in Azure SQL Data Warehouse aufruft. Schließlich werden die Daten über Azure Analysis Services und Power BI aufbereitet.

Die für Azure Data Lake Storage Gen2 verfügbar gemachten Ereignisse sind BlobCreated, BlobDeleted, BlobRenamed, DirectoryCreated, DirectoryDeleted und DirectoryRenamed. Details zu diesen Ereignissen finden Sie in der Dokumentation Azure Event Grid-Ereignisschema für Blob Storage.

Einige wichtige Vorteile sind:

  • Die nahtlose Integration zum Automatisieren von Workflows ermöglicht Kunden, in wenigen Minuten eine ereignisgesteuerte Pipeline zu erstellen.
  • Es besteht die Möglichkeit der Benachrichtigung mit schneller Reaktion auf die Erstellung, Löschung und Umbenennung von Dateien und Verzeichnissen. Dies kann in unzähligen Szenarien genutzt werden, insbesondere in Verbindung mit Datengovernance und -überprüfung. Beispiele: Warnung und Benachrichtigung bei allen Änderungen an Daten mit hoher geschäftlicher Auswirkung, Einrichten einer E-Mail-Benachrichtigung für die unerwartete Löschung von Dateien, Erkennen von verdächtigen Aktivitäten eines Kontos und Reagieren auf diese.
  • Die Komplexität und Kosten für Abrufdienste und die Integration von Ereignissen aus Ihrem Data Lake mit Anwendungen von Drittanbietern über Webhooks entfallen, z. B. für Abrechnungs- und Ticketssysteme.

Nächste Schritte

Die Integration von Azure Data Lake Storage Gen2 mit Azure Event Grid steht nun in den Regionen USA, Westen-Mitte und USA, Westen 2 zur Verfügung. Das Abonnieren von Azure Data Lake Storage Gen2-Ereignissen funktioniert genauso wie bei Azure Storage-Konten. Weitere Informationen finden Sie in der Dokumentation Reaktion auf Blob Storage-Ereignisse. Wir würden gerne mehr über Ihre Erfahrungen mit der Vorschauversion erfahren und unter ADLSGen2QA@microsoft.com Feedback von Ihnen erhalten.