Análisis basados en eventos con Azure Data Lake Storage Gen2

Publicado el 26 junio, 2019

Senior Program Manager, Azure Storage

La mayoría de las empresas de hoy día utilizan canalizaciones de análisis para el procesamiento por lotes y en tiempo real. Una característica común en estas canalizaciones es que los datos llegan a intervalos irregulares desde orígenes diferentes. Esto aumenta la complejidad al tener que organizar la canalización para que los datos se procesen en su debido momento.

La respuesta a estos desafíos radica en utilizar una canalización desacoplada basada en eventos que utilice componentes sin servidor y responda a los cambios de los datos a medida que ocurran.

Una parte integral de cualquier canalización de análisis es el lago de datos. Azure Data Lake Storage Gen2 proporciona almacenamiento seguro, rentable y escalable para los datos estructurados, semiestructurados y no estructurados que llegan de diversos orígenes. El rendimiento, la disponibilidad global y el ecosistema de asociados de Azure Data Lake Storage Gen2 lo convierten en la plataforma para análisis que eligen clientes y asociados de todo el mundo. El siguiente aspecto es el del procesamiento de eventos. Con Azure Event Grid, un servicio de enrutamiento de eventos totalmente administrado, Azure Functions, un motor de proceso sin servidor, y Azure Logic Apps, un motor de orquestación de flujos de trabajo sin servidor, es fácil llevar cabo un procesamiento basado en eventos y flujos de trabajo que respondan a los eventos en tiempo real.

Hoy estamos encantados de anunciar la versión preliminar de la integración de Azure Data Lake Storage Gen2 con Azure Event Grid. Esto significa que Azure Data Lake Storage Gen2 ahora puede generar eventos que Event Grid puede consumir y que se pueden redirigir a suscriptores con webhooks, Azure Event Hubs, Azure Functions y Logic Apps como puntos de conexión. Con esta funcionalidad, los cambios individuales que tienen lugar en archivos y directorios de Azure Data Lake Storage Gen2 se pueden capturar y poner a disposición de ingenieros de datos de forma automática para que creen plataformas de análisis de macrodatos muy completas que utilicen arquitecturas basadas en eventos.

Almacenamiento de datos actual

El diagrama anterior muestra una arquitectura de referencia de la canalización de almacenamiento de datos que se utiliza actualmente basada en Azure Data Lake Storage Gen2 y los componentes sin servidor de Azure. Datos de varios orígenes llegan a Azure Data Lake Storage Gen2 a través de Azure Data Factory y otras herramientas de movimiento de datos. Azure Data Lake Storage Gen2 genera eventos para la creación de archivos nuevos, actualizaciones, cambios de nombre o eliminaciones que se redirigen a través de Event Grid y Azure Functions a Azure Databricks. Un trabajo de Databricks procesa el archivo y escribe la salida de nuevo en Azure Data Lake Storage Gen2. Cuando esto ocurre, Azure Data Lake Storage Gen2 publica una notificación en Event Grid que invoca a una función de Azure Functions para copiar los datos en Azure SQL Data Warehouse. Finalmente, los datos se entregan a través de Azure Analysis Services y PowerBI.

Los eventos que se pondrán a disposición de Azure Data Lake Storage Gen2 son BlobCreated, BlobDeleted, BlobRenamed, DirectoryCreated, DirectoryDeleted y DirectoryRenamed. Encontrará más información sobre estos eventos en la documentación, en el artículo “Esquema de eventos de Azure Event Grid para Blob Storage”.

Entre las ventajas clave se incluyen la siguientes:

  • La integración sin fisuras para automatizar los flujos de trabajo permite a los clientes crear una canalización basada en eventos en solo unos minutos.
  • Habilite alertas con una reacción rápida para crear, eliminar y cambiar de nombre archivos y directorios. Miles de escenarios se beneficiarían de esta funcionalidad, sobre todo, los relacionados con la auditoría y la gobernanza de los datos. Por ejemplo, puede enviar alertas y notificaciones de todos los cambios que tengan lugar en datos con un fuerte impacto en la empresa, configurar notificaciones por correo electrónico para eliminaciones de archivos imprevistas, así como detectar actividad sospechosa de una cuenta y tomar medidas al respecto.
  • Elimine la complejidad y los gastos de servicios de sondeo e integre eventos que procedan de su lago de datos con aplicaciones de terceros por medio de webhooks, como sistemas de facturación y de emisión de billetes.

Pasos siguientes

La integración de Azure Data Lake Storage Gen2 con Azure Event Grid ya está disponible en las regiones Centro-oeste de EE. UU. y Oeste de EE. UU. 2. La suscripción a eventos de Azure Data Lake Storage Gen2 funciona igual que con las cuentas de Azure Storage. Si desea obtener más información, consulte el artículo “Reacción ante eventos de Blob Storage” de la documentación. Nos encantaría saber más sobre su experiencia con la versión preliminar y recibir sus comentarios en la dirección ADLSGen2QA@microsoft.com.