Announcements, Azure Data Lake Storage, Serverless, Storage

Ereignisgesteuerte Analysen mit Azure Data Lake Storage Gen2

By Sumant Mehta Senior Program Manager, Azure Storage

Ereignisgesteuerte Analysen mit Azure Data Lake Storage Gen2 • 3 min read

Posted on June 26, 2019
3 min read

Tag: Big Data

Seit dem 4. November 2019 ist die Azure Data Lake Storage Gen2-Integration in Azure Event Grid allgemein verfügbar.

Die meisten modernen Unternehmen nutzen für die Echtzeit- und Batchverarbeitung Analysepipelines. Ein gemeinsames Merkmal dieser Pipelines ist, dass Daten in unregelmäßigen Abständen aus verschiedensten Quellen ankommen. Dies sorgt für zusätzliche Komplexität, da die Pipeline für die zeitnahe Verarbeitung der Daten orchestriert werden muss.

Die Antwort auf diese Herausforderungen ist das Entwickeln einer entkoppelten ereignisgesteuerten Pipeline mithilfe von serverlosen Komponenten, die auf Änderungen der Daten beim Auftreten reagiert.

Ein integraler Bestandteil jeder Analysepipeline ist der Data Lake. Azure Data Lake Storage Gen2 bietet sicheren, kosteneffektiven und skalierbaren Speicher für ankommende strukturierte, teilstrukturierte und unstrukturierte Daten aus verschiedenen Quellen. Durch die Leistung und globale Verfügbarkeit sowie das Partnerökosystem ist Azure Data Lake Storage Gen2 die Plattform erster Wahl für Analysekunden und -partner auf der ganzen Welt. Der Aspekt der Ereignisverarbeitung ist ebenfalls wichtig. Mit Azure Event Grid, einem vollständig verwalteten Dienst zur Ereignisweiterleitung, Azure Functions, einer Engine für serverloses Computing, und Azure Logic Apps, einer Engine für serverlose Workfloworchestrierung, sind ereignisbasierte Verarbeitung und Workflows, die in Echtzeit auf die Ereignisse reagieren, einfach umzusetzen.

Wir freuen uns sehr, heute bekanntzugeben, dass sich die Integration von Azure Data Lake Storage Gen2 in Azure Event Grid in der Vorschauphase befindet! Azure Data Lake Storage Gen2 kann dadurch jetzt Ereignisse generieren, die von Event Grid verarbeitet und an Abonnenten mit Webhooks, Azure Event Hubs, Azure Functions und Logic Apps als Endpunkte weitergeleitet werden können. Mit dieser Möglichkeit können einzelne Änderungen an Dateien und Verzeichnissen in Azure Data Lake Storage Gen2 automatisch erfasst und Datentechnikern zur Verfügung gestellt werden, um funktionsstarke Big Data-Analyseplattformen mit ereignisgesteuerten Architekturen zu erstellen.

Das vorstehende Diagramm zeigt eine Referenzarchitektur für eine moderne Data Warehouse-Pipeline, die auf Azure Data Lake Storage Gen2 und serverlosen Azure-Komponenten aufbaut. Daten aus verschiedenen Quellen kommen über Azure Data Factory und andere Datenverschiebungstools bei Azure Data Lake Storage Gen2 an. Azure Data Lake Storage Gen2 generiert Ereignisse für die Erstellung neuer Dateien, Updates, Umbenennungen oder Lösungen. Diese Ereignisse werden über Event Grid und Azure Functions an Azure Databricks weitergeleitet. Ein Databricks-Auftrag verarbeitet die Datei und schreibt die Ausgabe zurück in Azure Data Lake Storage Gen2. Dabei veröffentlicht Azure Data Lake Storage Gen2 eine Benachrichtigung an Event Grid, die eine Azure Functions-Funktion zum Kopieren von Daten in Azure SQL Data Warehouse aufruft. Schließlich werden die Daten über Azure Analysis Services und Power BI aufbereitet.

Die für Azure Data Lake Storage Gen2 verfügbar gemachten Ereignisse sind BlobCreated, BlobDeleted, BlobRenamed, DirectoryCreated, DirectoryDeleted und DirectoryRenamed. Details zu diesen Ereignissen finden Sie in der Dokumentation Azure Event Grid-Ereignisschema für Blob Storage.

Einige wichtige Vorteile sind:

Die nahtlose Integration zum Automatisieren von Workflows ermöglicht Kunden, in wenigen Minuten eine ereignisgesteuerte Pipeline zu erstellen.
Es besteht die Möglichkeit der Benachrichtigung mit schneller Reaktion auf die Erstellung, Löschung und Umbenennung von Dateien und Verzeichnissen. Dies kann in unzähligen Szenarien genutzt werden, insbesondere in Verbindung mit Datengovernance und -überprüfung. Beispiele: Warnung und Benachrichtigung bei allen Änderungen an Daten mit hoher geschäftlicher Auswirkung, Einrichten einer E-Mail-Benachrichtigung für die unerwartete Löschung von Dateien, Erkennen von verdächtigen Aktivitäten eines Kontos und Reagieren auf diese.
Die Komplexität und Kosten für Abrufdienste und die Integration von Ereignissen aus Ihrem Data Lake mit Anwendungen von Drittanbietern über Webhooks entfallen, z. B. für Abrechnungs- und Ticketssysteme.

Nächste Schritte

Die Integration von Azure Data Lake Storage Gen2 mit Azure Event Grid steht nun in den Regionen USA, Westen-Mitte und USA, Westen 2 zur Verfügung. Das Abonnieren von Azure Data Lake Storage Gen2-Ereignissen funktioniert genauso wie bei Azure Storage-Konten. Weitere Informationen finden Sie in der Dokumentation Reaktion auf Blob Storage-Ereignisse. Wir würden gerne mehr über Ihre Erfahrungen mit der Vorschauversion erfahren und unter ADLSGen2QA@microsoft.com Feedback von Ihnen erhalten.

Ereignisgesteuerte Analysen mit Azure Data Lake Storage Gen2

Nächste Schritte

Explore

Related posts

Einführung in Azure Storage-Aktionen: Serverlose Speicherdatenverwaltung

Reflecting on 2023—Azure Storage

Demokratisierung von FinOps: Transformieren Sie Ihre Praxis mit FOCUS und Microsoft Fabric

Effizientes Speichern von Daten mit Azure Blob Storage Cold Tier – jetzt allgemein verfügbar

Join the conversation

Vorgestellt

KI + Machine Learning

Analysen

Compute

Container

Datenbanken

DevOps

Entwicklungstools

Hybrid Cloud und Multi Cloud

Identität

Integration

Internet der Dinge

Verwaltung und Governance

Medien

Migration

Mixed Reality

Mobil

Netzwerk

Sicherheit

Speicher

Web

Windows Virtual Desktop

Anwendungsfälle

Anwendungsbereitstellung

KI

Cloudmigration und -modernisierung

Daten und Analysen

Hybrid Cloud und Infrastruktur

Internet der Dinge

Sicherheit und Governance

Organisationstyp

Ressourcen

Nächste Schritte

Explore

Related posts

Join the conversation