Una mirada al interior: rendimiento, escala y seguridad para el análisis en la nube con ADLS Gen2

Publicado el 14 febrero, 2019

Program Manager, Azure Storage

El 7 de febrero de 2019 anunciamos la disponibilidad general de Azure Data Lake Storage (ADLS) Gen2. Azure es actualmente el único proveedor de nube que ofrece una solución de almacenamiento en la nube sin comprometer ningún aspecto y, además, rápida, segura, escalable de forma masiva, rentable y totalmente capaz de ejecutar las cargas de trabajo de producción más exigentes. En esta entrada de blog, haremos un repaso más detenido sobre la base técnica de ADLS que hará posibles escenarios de análisis completos que nuestros clientes demandan.

ADLS es el único servicio de almacenamiento en la nube creado específicamente para el análisis de macrodatos. Está diseñado para que se pueda integrar con una amplia gama de marcos de análisis, lo que hace posible disponer de un verdadero lago de datos empresarial; permite maximizar el rendimiento con semántica de sistema de archivos auténtica; se puede escalar para satisfacer las necesidades de las cargas de trabajo analíticas más exigentes; tiene un precio de almacenamiento de objetos en la nube; y es flexible para admitir un amplio abanico de cargas de trabajo, de modo que usted no tiene que crear silos de datos.

Una parte fundamental de la plataforma

La plataforma de análisis de Azure no solo cuenta con un gran lago de datos para almacenar sus datos con ADLS, sino que también incluye numerosos servicios y un gran ecosistema que permite que todo salga bien en sus canalizaciones de análisis completas.

Azure dispone de servicios como HDInsight y Azure Databricks para el procesamiento de datos, Azure Data Factory para la entrada y organización de los datos, Azure SQL Data Warehouse, Azure Analysis Services y Power BI para consumir los datos con un modelo conocido como almacenamiento de datos moderno, lo que le permite maximizar las ventajas de su lago de datos empresarial.

Grafo de análisis integral

Además, un ecosistema de herramientas y marcos de análisis populares se integra ADLS para que pueda crear la solución que satisfaga sus necesidades.

“La administración y el gobierno de los datos es una prioridad para los clientes que implementan soluciones de análisis en la nube. El equipo de Azure Data Lake Storage Gen2 ha sido un asociado fantástico al asegurar una integración perfecta para proporcionar la mejor experiencia de cliente a medida que nuestros clientes adoptan ADLS Gen2”.

– Ronen Schwartz, vicepresidente sénior y director general, Integración de datos e Integración de la nube, Informatica

"La tecnología de replicación de datos Fusion de WANDisco combinada con Azure Data Lake Storage Gen2 proporciona a nuestros clientes una solución de datos en directo (LiveData) muy interesante para el análisis híbrido porque permite acceder fácilmente a Azure Data Services sin tiempo de inactividad ni interrupciones en las operaciones en el entorno local”.

– David Richards, cofundador y consejero delegado, WANdisco

“Microsoft continúa innovando para ofrecer una infraestructura escalable y segura que esté en línea con la misión de Cloudera de ofrecer una nube de datos empresariales. Estamos encantados con la distribución global de Azure Data Lake Storage Gen2. Nuestros clientes mutuos pueden aprovechar la simplicidad de administración que ofrece esta opción de almacenamiento cuando se combina con nuestra plataforma de análisis”.

– Vikram Makhija, director general para la nube, Cloudera

Rendimiento

El rendimiento es el primer impulsor del valor de las cargas de trabajo de análisis de macrodatos. El motivo es sencillo: cuanto mayor sea el rendimiento de la capa de almacenamiento, menor será la cantidad de proceso (que es la parte cara) necesario para extraer valor de los datos. Por tanto, no solo obtiene una ventaja competitiva al obtener conclusiones en menos tiempo, sino que lo hace con un costo considerablemente inferior.

“Obtuvimos una mejora del rendimiento del 40 % y una reducción importante de nuestro espacio de almacenamiento después de probar uno de nuestros flujos de trabajo de análisis de riesgo de mercado en el departamento de Gestión de inversiones de Zurich con Azure Data Lake Storage Gen2”.

– Valerio Bürker, director de programas, Soluciones de información de inversión, Zurich Insurance

Veamos cómo consigue ADLS un rendimiento abrumador. Lo más destacado es el espacio de nombres jerárquico (HNS), que permite que este servicio de almacenamiento escalable de forma masiva organice sus datos como un sistema de archivos con una jerarquía de directorios. Todos los marcos de análisis (por ejemplo, Spark, Hive, etc.) se han creado con una suposición implícita de que el servicio de almacenamiento subyacente es un sistema de archivos jerárquico. Esto es muy obvio cuando los datos se escriben en directorios temporales a los que se les cambia el nombre cuando se completa el trabajo. Para los almacenes de objetos basados en la nube tradicionales, esto es una operación compleja O(n), n operaciones de copia y eliminación, que afecta enormemente al rendimiento. En ADLS, este cambio de nombre es una sola operación atómica de metadatos.

Diagrama de Azure Data Lake Storage

El otro factor que mejora el rendimiento es el controlador Azure Blob Filesystem (ABFS). Este controlador aprovecha el hecho de que el punto de conexión de ADLS está optimizado para cargas de trabajo de análisis de macrodatos. Estas cargas de trabajo son muy sensibles a la maximización del procesamiento con un gran número de operaciones de E/S, a diferencia de otros almacenes en la nube de uso general que deben optimizarse para un intervalo mucho mayor de operaciones de E/S. Este nivel de optimización da lugar a mejoras notables en el rendimiento de las operaciones de E/S que suponen un beneficio directo en cuanto al rendimiento y los costos de ejecutar cargas de trabajo de análisis de macrodatos en Azure. El controlador ABFS se ofrece como parte de Apache Hadoop® y está disponible en HDInsight y Azure Databricks, así como en otras distribuciones comerciales de Hadoop.

Escalable

La escalabilidad del análisis de macrodatos es también fundamental. No tiene sentido tener una solución que funcione genial con unos cuantos TB de datos y que se colapse a medida que aumente el tamaño de los datos, algo que es inevitable. El índice de crecimiento de los proyectos de análisis de macrodatos tiende a ser no lineal porque los orígenes de datos son cada vez más diversos y accesibles. La mayoría de los proyectos aprovechan el principio de que, cuantos más datos tienes, mejores serán las conclusiones. Sin embargo, esto supone un desafío de diseño, porque el sistema debe escalarse al mismo ritmo al que aumentan los datos. Una de las principales características del diseño de los marcos de análisis de macrodatos, como Hadoop y Spark, es que se escalan horizontalmente. Esto significa que, a medida que aumentan los datos y/o el procesamiento, solo tiene que agregar más nodos al clúster y el procesamiento continúa incesante. Esto, sin embargo, depende de que la capa de almacenamiento se escale linealmente también.

Aquí es donde destaca el valor de que ADLS esté basado en el actual Azure Blob service. La escala de EB de este servicio se aplica ahora a ADLS para asegurar que no haya límites en la cantidad de datos que se pueden almacenar o a los que se puede acceder. En términos prácticos, los clientes pueden almacenar cientos de PB de datos a los que se puede acceder con procesamiento para satisfacer las cargas de trabajo más exigentes.

Diagrama de la arquitectura de ADLS Gen2

Seguro

Para los clientes que desean crear un lago de datos para toda la empresa, la seguridad no es un asunto baladí. Son muchos los aspectos que deben tenerse en cuenta para proporcionar seguridad total al lago de datos:

La integración perfecta con los marcos de análisis da lugar a una canalización completa segura. Con HDInsight Enterprise Security Package, la autenticación del usuario final se extiende por todo el clúster y hasta los datos del lago de datos.

Comience hoy mismo

Nos alegramos de que pruebe Azure Data Lake Storage. Comience hoy mismo y envíenos sus comentarios.