Geniales por separado, sin parangón en conjunto: anuncio de actualizaciones en tres magníficos servicios de Azure Data Services

Publicado el 7 febrero, 2019

Director of Product Management, Azure Engineering

Como decía Julia White hoy en su blog, estamos encantados de anunciar la disponibilidad general de Azure Data Lake Storage Gen2 y Azure Data Explorer. También anunciamos la versión preliminar de Azure Data Factory Mapping Data Flow. Con estas actualizaciones, Azure continúa siendo la mejor nube para análisis con una relación precio-rendimiento y una seguridad inigualables. En esta entrada de blog, haremos un repaso más detallado de los aspectos técnicos de estas características nuevas.

Azure Data Lake Storage: un lago de datos con una funcionalidad excelente

Azure Data Lake Storage (ADLS) combina la escalabilidad, la rentabilidad, el modelo de seguridad y la variedad de características de Azure Blob Storage con un sistema de archivos de alto rendimiento creado para realizar análisis que es compatible con el sistema de archivos distribuido de Hadoop. Los clientes ya no tienen que hacer concesiones entre rentabilidad y rendimiento a la hora de elegir un lago de datos en la nube.

Una de nuestras principales prioridades era asegurar la compatibilidad de ADLS con el ecosistema de Apache. Lo hemos conseguido desarrollando el controlador Azure Blob File System (ABFS) driver. El controlador ABFS forma parte oficialmente de Apache Hadoop y Spark, y está integrado en muchas distribuciones comerciales. El controlador ABFS define un esquema de URI que permite distinguir los archivos y carpetas de la siguiente manera:

abfs[s]://sistema_de_archivos@nombre_de_cuenta.dfs.core.windows.net/<ruta_de_acceso>/<ruta_de_accesopath>/<nombre_de_archivo>

Es importante tener en cuenta que la semántica del sistema de archivos se implementa en el lado servidor. Este método elimina la necesidad de un controlador cliente-servidor complejo y asegura transacciones del sistema de archivos de alta fidelidad.

Para aumentar aún más el rendimiento de los análisis, hemos implementado un espacio de nombres jerárquico (HNS) que admite operaciones atómicas de archivo y carpeta. Esto es importante porque reduce la sobrecarga asociada al procesamiento de macrodatos en Blob Storage. De este modo, se acelera la ejecución de los trabajos y se reduce el costo porque se necesitan menos operaciones de proceso.

El controlador ABFS y HNS mejoran notablemente el rendimiento de ADLS, porque eliminan los cuellos de botella de escalado y rendimiento.  Esta mejora del rendimiento está disponible ahora al mismo precio reducido que Azure Blob Storage.

ADLS ofrece las mismas características de seguridad de datos tan eficaces que están integradas en Azure Blob Storage, por ejemplo:

  • Cifrado de los datos en tránsito y en reposo con TLS 1.2.
  • Firewalls para cuentas de almacenamiento.
  • Integración de redes virtuales.
  • Seguridad de acceso basado en roles.

Además, el sistema de archivos de ADLS admite listas de control de acceso (ACL) conformes con POSIX. Con esta estrategia, puede proporcionar protección con seguridad pormenorizada que restrinja el acceso a los usuarios, grupos o entidades de servicio autorizados y ofrezca protección de archivos y datos de objetos.

Diagrama de Azure Data Lake Storage

ADLS se integra perfectamente con Azure Databricks, Azure HDInsight, Azure Data Factory, Azure SQL Data Warehouse y Power BI, lo que permite un flujo de trabajo de análisis completo que ofrece conclusiones empresariales muy útiles en todos los niveles de la organización. Además, ADLS cuenta con el apoyo de una red global de ISV de análisis de macrodatos e integradores de sistemas, como Cloudera y Hortonworks.

Pasos siguientes

Azure Data Explorer: un servicio de análisis de datos rápido y muy escalable

Azure Data Explorer (ADX) es un servicio de análisis de datos rápido y totalmente administrado que permite analizar grandes volúmenes de datos de streaming en tiempo real. ADX puede consultar mil millones de registros en menos de un segundo sin necesidad de modificar los datos o metadatos. ADX incluye también conectores nativos para Azure Data Lake Storage, Azure SQL Data Warehouse y Power BI, e incluye un lenguaje de consulta intuitivo que permite a los clientes obtener conclusiones en solo unos minutos.

Diseñado para ofrecer velocidad y simplicidad, ADX está formado por dos servicios diferentes que funcionan en tándem: Engine y Data Management (DM). Los dos servicios se implementan como clústeres de nodos de proceso (máquinas virtuales) en Azure.

Diagrama de Azure Data Explorer

El servicio Data Management (DM) ingiere varios tipos de datos sin procesar y administra tareas de preparación de datos, contrapresión y errores cuando es necesario. El servicio DM permite también la ingesta rápida de datos con un método único de indexación y compresión automáticas.

El servicio Engine es responsable de procesar los datos sin procesar entrantes y atender las consultas de los usuarios. Utiliza una combinación de escalabilidad automática y particionamiento de datos para lograr velocidad y escala. El lenguaje de consulta de solo lectura está diseñado para facilitar la lectura, la creación y la automatización de la sintaxis. Proporciona una evolución natural de las consultas de una línea a scripts de procesamiento de datos complejos para lograr una ejecución eficiente de las consultas.

ADX está disponible en 41 regiones de Azure y cuenta con el apoyo de un ecosistema cada vez mayor de asociados, donde se incluyen fabricantes de software independientes (ISV) e integradores de sistemas.

Pasos siguientes

Azure Data Factory Mapping Data Flow: experiencia visual sin programación para la transformación de datos

Azure Data Factory (ADF) es un servicio de integración de datos basado en la nube híbrida para organizar y automatizar el movimiento y la transformación de datos. ADF proporciona más de 80 conectores integrados para orígenes de datos estructurados, semiestructurados y no estructurados.

Con Mapping Data Flow en ADF, los clientes pueden diseñar, crear y administrar visualmente procesos de transformación de datos sin necesidad de aprender Spark ni de tener un conocimiento profundo de su infraestructura distribuida.

Azure Data Factory Mapping Data Flow

Mapping Data Flow combina un lenguaje de expresiones muy completo con un depurador interactivo para ejecutar, desencadenar y supervisar fácilmente trabajos de ETL y procesos de integración de datos.

Azure Data Factory está disponible en 21 regiones y continúa expandiéndose. Además, cuenta con el apoyo de un amplio ecosistema de asociados que incluye fabricantes de software independientes (ISV) e integradores de sistemas.

Pasos siguientes

Azure es el mejor lugar para el análisis de datos

Con estas innovaciones técnicas que hemos anunciado hoy, Azure continúa siendo la mejor nube para análisis. Obtenga más información sobre por qué los análisis en Azure no tienen parangón.