Analytiques basées sur les événements avec Azure Data Lake Storage Gen2

Publié le 26 juin, 2019

Senior Program Manager, Azure Storage

La plupart des entreprises modernes utilisent des pipelines analytiques pour le traitement en temps réel et par lots. Une caractéristique commune de ces pipelines est que les données arrivent à des intervalles irréguliers à partir de sources diverses. Cela ajoute à la complexité du fait que le pipeline doit être orchestré de manière à ce que les données soient traitées à temps.

La solution à ces problèmes consiste à créer un pipeline découplé piloté par les événements et utilisant des composants serverless qui répondent aux modifications des données à mesure qu’elles se produisent.

Le lac de données fait partie intégrante de tout pipeline analytique. Azure Data Lake Storage Gen2 fournit un stockage sécurisé, économique et scalable pour les données structurées, semi-structurées et non structurées provenant de diverses sources. Les performances, la disponibilité mondiale et l’écosystème de partenaires d’Azure Data Lake Storage Gen2 en font la plateforme de choix pour les clients et les partenaires analytiques dans le monde entier. Viennent ensuite les avantages liés au traitement des événements. Avec Azure Event Grid, service de routage d’événements complètement managé, Azure Functions, moteur de calcul serverless et Azure Logic Apps, moteur d’orchestration de flux de travail serverless, il est facile d’effectuer un traitement basé sur des événements et des workflows répondant aux événements en temps réel.

Nous sommes très heureux d’annoncer que l’intégration d’Azure Data Lake Storage Gen2 à Azure Event Grid est en préversion. Cela signifie qu’Azure Data Lake Storage Gen2 peut à présent générer des événements pouvant être consommés par Event Grid et routés vers les abonnés avec des Webhooks, Azure Event Hubs, Azure Functions et Logic Apps en tant que points de terminaison. Grâce à cette fonctionnalité, les modifications individuelles apportées aux fichiers et aux répertoires dans Azure Data Lake Storage Gen2 peuvent être automatiquement capturées et mises à la disposition des ingénieurs de données afin de créer de riches plateformes d’analytiques Big Data utilisant des architectures pilotées par les événements.

Entrepôt de données (data warehouse) moderne

Le schéma ci-dessus illustre une architecture de référence pour le pipeline d’entrepôt de données moderne basé sur des composants Azure Data Lake Storage Gen2 et Azure serverless. Des données provenant de diverses sources arrivent dans Azure Data Lake Storage Gen2 via Azure Data Factory et d’autres outils de déplacement de données. Azure Data Lake Storage Gen2 génère des événements pour la création, la mise à jour, le changement de nom ou la suppression de fichiers. Ceux-ci sont routés via Event Grid et Azure Functions vers Azure Databricks. Un travail Databricks traite le fichier et réécrit la sortie dans Azure Data Lake Storage Gen2. Dans ce cas, Azure Data Lake Storage Gen2 publie une notification dans Event Grid, qui appelle une fonction Azure pour copier les données dans Azure SQL Data Warehouse. Les données sont enfin servies via Azure Analysis Services et Power BI.

Les événements qui sont rendus disponibles pour Azure Data Lake Storage Gen2 sont les suivants : BlobCreated, BlobDeleted, BlobRenamed, DirectoryCreated, DirectoryDeleted et DirectoryRenamed. Des informations détaillées sur ces événements sont disponibles dans la documentation Schéma d’événement Azure Event Grid pour le stockage blob.

Voici certains des principaux avantages :

  • Une intégration fluide pour automatiser les workflows permet aux clients de créer un pipeline piloté par les événements en quelques minutes.
  • Activez les alertes avec une réaction rapide à la création, à la suppression et au changement de nom de fichiers et de répertoires. De nombreux scénarios en bénéficient, notamment ceux liés à la gouvernance et à l’audit des données. Par exemple, alerter et notifier toutes les modifications apportées aux données ayant un impact important sur l’activité, configurer les notifications par e-mail en cas de suppression inattendue de fichiers, ainsi que détecter et résoudre les activités suspectes d’un compte.
  • Éliminez la complexité et les coûts liés à l’interrogation des services et intégrez des événements provenant de votre lac de données à des applications tierces à l’aide de webhooks tels que les systèmes de billetterie et de facturation.

Étapes suivantes

L’intégration d’Azure Data Lake Storage Gen2 à Azure Event Grid est maintenant disponible dans les régions USA Centre-Ouest et USA Ouest 2. L’abonnement aux événements Azure Data Lake Storage Gen2 fonctionne de la même manière que pour les comptes Stockage Azure. Pour en savoir plus, consultez la documentation Réaction aux événements de stockage blob. Nous aimerions en savoir plus sur vos expériences avec la préversion. Pour cela, envoyez-nous vos commentaires à l’adresse ADLSGen2QA@microsoft.com.