El 7 de febrero de 2019 anunciamos la disponibilidad general de Azure Data Lake Storage (ADLS) Gen2. Azure es actualmente el único proveedor de nube que ofrece una solución de almacenamiento en la nube sin comprometer ningún aspecto y, además, rápida, segura, escalable de forma masiva, rentable y totalmente capaz de ejecutar las cargas de trabajo de producción más exigentes. En esta entrada de blog, haremos un repaso más detenido sobre la base técnica de ADLS que hará posibles escenarios de análisis completos que nuestros clientes demandan.
ADLS es el único servicio de almacenamiento en la nube creado específicamente para el análisis de macrodatos. Está diseñado para que se pueda integrar con una amplia gama de marcos de análisis, lo que hace posible disponer de un verdadero lago de datos empresarial; permite maximizar el rendimiento con semántica de sistema de archivos auténtica; se puede escalar para satisfacer las necesidades de las cargas de trabajo analíticas más exigentes; tiene un precio de almacenamiento de objetos en la nube; y es flexible para admitir un amplio abanico de cargas de trabajo, de modo que usted no tiene que crear silos de datos.
Una parte fundamental de la plataforma
La plataforma de análisis de Azure no solo cuenta con un gran lago de datos para almacenar sus datos con ADLS, sino que también incluye numerosos servicios y un gran ecosistema que permite que todo salga bien en sus canalizaciones de análisis completas.
Azure dispone de servicios como HDInsight y Azure Databricks para el procesamiento de datos, Azure Data Factory para la entrada y organización de los datos, Azure SQL Data Warehouse, Azure Analysis Services y Power BI para consumir los datos con un modelo conocido como almacenamiento de datos moderno, lo que le permite maximizar las ventajas de su lago de datos empresarial.
Además, un ecosistema de herramientas y marcos de análisis populares se integra ADLS para que pueda crear la solución que satisfaga sus necesidades.
“La administración y el gobierno de los datos es una prioridad para los clientes que implementan soluciones de análisis en la nube. El equipo de Azure Data Lake Storage Gen2 ha sido un asociado fantástico al asegurar una integración perfecta para proporcionar la mejor experiencia de cliente a medida que nuestros clientes adoptan ADLS Gen2”.
– Ronen Schwartz, vicepresidente sénior y director general, Integración de datos e Integración de la nube, Informatica
"La tecnología de replicación de datos Fusion de WANDisco combinada con Azure Data Lake Storage Gen2 proporciona a nuestros clientes una solución de datos en directo (LiveData) muy interesante para el análisis híbrido porque permite acceder fácilmente a Azure Data Services sin tiempo de inactividad ni interrupciones en las operaciones en el entorno local”.
– David Richards, cofundador y consejero delegado, WANdisco
“Microsoft continúa innovando para ofrecer una infraestructura escalable y segura que esté en línea con la misión de Cloudera de ofrecer una nube de datos empresariales. Estamos encantados con la distribución global de Azure Data Lake Storage Gen2. Nuestros clientes mutuos pueden aprovechar la simplicidad de administración que ofrece esta opción de almacenamiento cuando se combina con nuestra plataforma de análisis”.
– Vikram Makhija, director general para la nube, Cloudera
Rendimiento
El rendimiento es el primer impulsor del valor de las cargas de trabajo de análisis de macrodatos. El motivo es sencillo: cuanto mayor sea el rendimiento de la capa de almacenamiento, menor será la cantidad de proceso (que es la parte cara) necesario para extraer valor de los datos. Por tanto, no solo obtiene una ventaja competitiva al obtener conclusiones en menos tiempo, sino que lo hace con un costo considerablemente inferior.
“Obtuvimos una mejora del rendimiento del 40 % y una reducción importante de nuestro espacio de almacenamiento después de probar uno de nuestros flujos de trabajo de análisis de riesgo de mercado en el departamento de Gestión de inversiones de Zurich con Azure Data Lake Storage Gen2”.
– Valerio Bürker, director de programas, Soluciones de información de inversión, Zurich Insurance
Veamos cómo consigue ADLS un rendimiento abrumador. Lo más destacado es el espacio de nombres jerárquico (HNS), que permite que este servicio de almacenamiento escalable de forma masiva organice sus datos como un sistema de archivos con una jerarquía de directorios. Todos los marcos de análisis (por ejemplo, Spark, Hive, etc.) se han creado con una suposición implícita de que el servicio de almacenamiento subyacente es un sistema de archivos jerárquico. Esto es muy obvio cuando los datos se escriben en directorios temporales a los que se les cambia el nombre cuando se completa el trabajo. Para los almacenes de objetos basados en la nube tradicionales, esto es una operación compleja O(n), n operaciones de copia y eliminación, que afecta enormemente al rendimiento. En ADLS, este cambio de nombre es una sola operación atómica de metadatos.
El otro factor que mejora el rendimiento es el controlador Azure Blob Filesystem (ABFS). Este controlador aprovecha el hecho de que el punto de conexión de ADLS está optimizado para cargas de trabajo de análisis de macrodatos. Estas cargas de trabajo son muy sensibles a la maximización del procesamiento con un gran número de operaciones de E/S, a diferencia de otros almacenes en la nube de uso general que deben optimizarse para un intervalo mucho mayor de operaciones de E/S. Este nivel de optimización da lugar a mejoras notables en el rendimiento de las operaciones de E/S que suponen un beneficio directo en cuanto al rendimiento y los costos de ejecutar cargas de trabajo de análisis de macrodatos en Azure. El controlador ABFS se ofrece como parte de Apache Hadoop® y está disponible en HDInsight y Azure Databricks, así como en otras distribuciones comerciales de Hadoop.
Escalable
La escalabilidad del análisis de macrodatos es también fundamental. No tiene sentido tener una solución que funcione genial con unos cuantos TB de datos y que se colapse a medida que aumente el tamaño de los datos, algo que es inevitable. El índice de crecimiento de los proyectos de análisis de macrodatos tiende a ser no lineal porque los orígenes de datos son cada vez más diversos y accesibles. La mayoría de los proyectos aprovechan el principio de que, cuantos más datos tienes, mejores serán las conclusiones. Sin embargo, esto supone un desafío de diseño, porque el sistema debe escalarse al mismo ritmo al que aumentan los datos. Una de las principales características del diseño de los marcos de análisis de macrodatos, como Hadoop y Spark, es que se escalan horizontalmente. Esto significa que, a medida que aumentan los datos y/o el procesamiento, solo tiene que agregar más nodos al clúster y el procesamiento continúa incesante. Esto, sin embargo, depende de que la capa de almacenamiento se escale linealmente también.
Aquí es donde destaca el valor de que ADLS esté basado en el actual Azure Blob service. La escala de EB de este servicio se aplica ahora a ADLS para asegurar que no haya límites en la cantidad de datos que se pueden almacenar o a los que se puede acceder. En términos prácticos, los clientes pueden almacenar cientos de PB de datos a los que se puede acceder con procesamiento para satisfacer las cargas de trabajo más exigentes.
Seguro
Para los clientes que desean crear un lago de datos para toda la empresa, la seguridad no es un asunto baladí. Son muchos los aspectos que deben tenerse en cuenta para proporcionar seguridad total al lago de datos:
- Autenticación: los tokens de portador de Azure Active Directory OAuth proporcionan mecanismos de autenticación estándar del sector, con el respaldo del mismo servicio de identidad que se utiliza en Azure y Office365.
- Control del acceso: una combinación del control de acceso basado en rol (RBAC) de Azure y listas de control de acceso (ACL) conformes con POSIX para proporcionar control de acceso flexible y escalable. Es importante destacar que las listas ACL conformes con POSIX son el mismo mecanismo que se utiliza en Hadoop.
- Cifrado en reposo y en tránsito: los datos almacenados en ADLS se cifran usando una clave suministrada por el sistema o administrada por el usuario. Además, los datos se cifran con TLS 1.2 cuando están en tránsito.
- Seguridad del transporte de red: puesto que ADLS expone los puntos de conexión en la Internet pública, se proporcionan medios de protección para la capa de transporte mediante firewalls de almacenamiento que restringen de forma segura desde dónde se puede acceder a los datos y se aplican en el nivel de paquete.
La integración perfecta con los marcos de análisis da lugar a una canalización completa segura. Con HDInsight Enterprise Security Package, la autenticación del usuario final se extiende por todo el clúster y hasta los datos del lago de datos.
Comience hoy mismo
Nos alegramos de que pruebe Azure Data Lake Storage. Comience hoy mismo y envíenos sus comentarios.
- Introducción a Azure Data Lake Storage.
- Vea el vídeo “Creating your first ADLS Gen2 Data Lake”(Creación de su primera instancia de ADLS Gen2 Data Lake).
- Lea el anuncio de la disponibilidad general.
- Descubra por qué ADLS mejora la plataforma de análisis de Azure en la entrada de blog “Geniales por separado, sin parangón en conjunto: anuncio de actualizaciones en tres magníficos servicios de Azure Data Services”.
- Consulte la documentación de Azure Data Lake Storage.
- Vea cómo implementar un clúster de HDInsight con ADLS.
- Implemente un área de trabajo de Azure Databricks con ADLS.
- Ingiera datos en ADLS usando Azure Data Factory.