• 4 min read

Eliminación de silos 2.0: acceso multiprotocolo para Azure Data Lake Storage

Los lagos de datos en la nube resuelven un problema fundamental para el análisis de macrodatos, ya que proporcionan almacenamiento seguro y escalable para los datos que tradicionalmente se encuentran en silos de datos separados. Desde el principio, los lagos de datos se diseñaron para derribar las barreras de los datos e iniciar los esfuerzos de análisis de macrodatos.

Los lagos de datos en la nube resuelven un problema fundamental para el análisis de macrodatos, ya que proporcionan almacenamiento seguro y escalable para los datos que tradicionalmente se encuentran en silos de datos separados. Desde el principio, los lagos de datos se diseñaron para derribar las barreras de los datos e iniciar los esfuerzos de análisis de macrodatos. Sin embargo, se mantuvo una última frontera en esta "destrucción de silos", que permite varios métodos de acceso a datos para todos los datos (estructurados, semiestructurados y no estructurados) que residen en el lago de datos.

El hecho de proporcionar varios puntos de acceso a los datos a los conjuntos de datos compartidos permite que las herramientas y las aplicaciones de datos interactúen con los datos de una forma muy natural. Además, permite que su lago de datos se beneficie de las herramientas y los marcos diseñados para una amplia variedad de ecosistemas. Por ejemplo, puede ingerir sus datos a través de una API de almacenamiento de objetos, procesar los datos utilizando la API del sistema de archivos distribuido de Hadoop (HDFS) y, luego, ingerir los datos transformados utilizando una API de almacenamiento de objetos en un almacén de datos.

Solución única de almacenamiento para cada escenario

Nos complace presentar la versión preliminar del acceso multiprotocolo para Azure Data Lake Storage. Azure Data Lake Storage es una solución de almacenamiento en la nube única para análisis que ofrece acceso multiprotocolo a los mismos datos. El acceso multiprotocolo a los mismos datos, a través de la API de Azure Blob Storage y la API de Azure Data Lake Storage, le permite aprovechar las funcionalidades de almacenamiento de objetos existentes en las cuentas de Data Lake Storage, que son cuentas de almacenamiento habilitadas para espacios de nombres jerárquicos y compiladas a partir de Blob Storage. Esto le ofrece la flexibilidad de colocar todos los distintos tipos de datos en su lago de datos en la nube sabiendo que puede sacar el mayor provecho de sus datos a medida que evoluciona su caso de uso.

image

Solución de almacenamiento única

Ecosistema, aplicaciones y conjunto de características expandido

Las características de blobs existentes, como los niveles de acceso y las directivas de administración del ciclo de vida, ahora están desbloqueadas para sus cuentas de Data Lake Storage. Esto representa un cambio de paradigma, ya que ahora puede usar los datos de sus blobs para realizar análisis. Además, los servicios como Azure Stream Analytics, IoT Hub, Azure Event Hubs Capture, Azure Data Box, Azure Search y muchos otros se integran sin problemas con Data Lake Storage. Los escenarios importantes, como la migración local a la nube, ahora permiten mover fácilmente conjuntos de datos de tamaño de PB a Data Lake Storage mediante Data Box.

El acceso multiprotocolo para Data Lake Storage también permite que el ecosistema del asociado use su conector de Blob Storage existente con Data Lake Storage.  A continuación, le mostramos los comentarios de nuestros asociados del ecosistema:

“El acceso multiprotocolo para Azure Data Lake Storage representa un cambio de perspectiva para nuestros clientes. La empresa Informatica está comprometida con la compatibilidad nativa con Azure Data Lake Storage, y el acceso multiprotocolo ayudará a los clientes a acelerar sus iniciativas de análisis y modernización del lago de datos con una interrupción mínima".

– Ronen Schwartz, vicepresidente sénior y director general de Integración de datos, Macrodatos y la Nube en Informatica.

No necesitará actualizar las aplicaciones existentes para obtener acceso a los datos almacenados en Data Lake Storage. Además, puede aprovechar la eficacia de sus aplicaciones de análisis y de almacenamiento de objetos para usar sus datos de manera más eficaz.Gráfico que muestra el acceso multiprotocolo que habilita las características de almacenamiento, el ecosistema de Azure, el ecosistema de asociado y las aplicaciones personalizadas.

El acceso multiprotocolo habilita características y el ecosistema

Varios puntos de conexión de API: los mismos datos y características compartidas

Esta funcionalidad no tiene precedentes en los servicios de análisis de la nube, ya que, además de admitir varios protocolos, también es compatible con varios paradigmas de almacenamiento. Ahora le ofrecemos esta funcionalidad eficaz para su almacenamiento en la nube. Las herramientas y aplicaciones existentes que utilizan la API de Blob Storage obtienen estos beneficios sin necesidad de realizar ninguna modificación. Las listas de control de acceso (ACL) a nivel de archivo y directorio se aplican de manera coherente, independientemente de si se utiliza una API de Azure Data Lake Storage o una API de Blob Storage para acceder a los datos.  

Tanto la API de Blob Storage como la de Azure Data Lake Storage pasan por el espacio de nombres jerárquico, que se basa en Blob Storage.

Acceso multiprotocolo en Azure Data Lake Storage

Ahora Data Lake Store ofrece características y un ecosistema expandido

El acceso multiprotocolo para Data Lake Storage reúne las mejores características de Data Lake Storage y Blob Storage en un paquete integral. Habilita muchas características de Blob Storage, así como compatibilidad con ecosistemas, para su instancia de Data Lake Storage.

Características Más información
Niveles de acceso Ya están disponibles los niveles de acceso esporádico y de almacenamiento de archivo para Data Lake Storage. Para obtener más información, consulte la documentación "Azure Blob Storage: niveles de acceso frecuente, esporádico y de archivo".
Directivas de administración del ciclo de vida Ahora puede definir directivas en un nivel o eliminar datos en Data Lake Storage. Para obtener más información, consulte "Administración del ciclo de vida de Azure Blob Storage".
Registros de diagnóstico Los registros para las API de Blob Storage y de Azure Data Lake Storage ya están disponibles en los formatos v1.0 y v2.0. Para obtener más información, consulte la documentación "Registro de Azure Storage Analytics".
SDK Los SDK de blob existentes ahora se pueden usar con Data Lake Storage. Para obtener más información, consulte la documentación que hay a continuación:
PowerShell PowerShell para operaciones de plano de datos ya está disponible para Data Lake Storage. Para obtener más información, consulte Inicio rápido de Azure PowerShell.
CLI La CLI de Azure para operaciones de plano de datos ya está disponible para Data Lake Storage. Para obtener más información, consulte el Inicio rápido de la CLI de Azure.
Notificaciones a través de Azure Event Grid Ahora puede recibir notificaciones de blobs a través de Event Grid. Si desea obtener más información, consulte el artículo “Reacción ante eventos de Blob Storage” de la documentación. Las notificaciones de Azure Data Lake Storage Gen2 están disponibles actualmente.

 

Asociado del ecosistema Más información
Azure Stream Analytics Ahora, Azure Stream Analytics escribe y lee el contenido que se encuentra en Data Lake Storage.
Azure Event Hubs Capture La característica Capture de Azure Event Hubs ahora le permite elegir Data Lake Storage como uno de sus destinos.
IoT Hub El enrutamiento de mensajes de IoT Hub ahora permite realizar enrutamientos a Azure Data Lake Storage Gen 2.
Azure Search Ahora puede indexar y aplicar modelos de aprendizaje automático a su contenido de Data Lake Storage mediante Azure Search.
Azure Data Box Ahora puede ingerir grandes cantidades de datos desde el entorno local a Data Lake Storage mediante Data Box.

Manténgase al día a medida que habilitamos más características de Blob Storage mediante esta fantástica funcionalidad.

Pasos siguientes

Todas estas características nuevas están disponibles hoy en estas regiones documentadas. Suscríbase a la versión preliminar hoy mismo. Para obtener más información, consulte nuestra documentación sobre el acceso multiprotocolo para Azure Data Lake Storage.