Azure HDInsight trae la nueva generación de Apache Hadoop 3.0 y seguridad empresarial a la nube

Publicado el 24 septiembre, 2018

Principal Group Program Manager, Azure HDInsight

Ícono de Azure HDInsight

MICROSOFT IGNITE, ORLANDO, Florida, 24 de septiembre de 2018: hoy temprano, Microsoft Corporation anunció el soporte y compromiso continuo para las empresas que buscan usar Apache Hadoop para análisis de macrodatos de código abierto en la nube. Como inicio de una serie de importantes actualizaciones al servicio de Azure HDInsight, se encuentra la versión preliminar de Apache Hadoop 3.0, la actualización transformacional de la pila Hadoop que las empresas están esperando desde principio de año. Esto es posible gracias a la asociación permanente entre Hortonworks y Microsoft. Además, las empresas con requisitos estrictos de seguridad y cumplimiento podrán proteger sus clústeres de Azure HDInsight con Enterprise Security Package. Y hay algo para todos en esta versión. A los desarrolladores de Spark, les gustará en especial la serie de innovaciones de Microsoft que ahora les permitirán identificar rápidamente cuellos de botella y solucionar problemas de rendimiento en su código.

Tenemos el honor de ser parte de la comunidad de análisis de código abierto”, señaló Ryan Waite, director de Administración de productos de macrodatos. “El análisis de código abierto está al centro de nuestra estrategia de productos, desde nuestras inversiones en HDInsight y nuestra participación en proyectos como YARN de Apache hasta nuestro cambio hacia el uso de análisis de código abierto en nuestro data lake interno. La tasa de innovación en este espacio solo está aumentando con Apache Hadoop 3.0. Nos complace poder presentarle esta actualización a nuestros clientes para que ellos también puedan acelerar su viaje por los macrodatos”.

Versión preliminar de Apache Hadoop 3.0 en Azure HDInsight 4.0

Dirigido por Hortonworks, Apache Hadoop 3.0 representa más de cinco años de trabajo en la comunidad desde la última gran actualización a la pila Hadoop. Ahora las empresas pueden implementar su visión del data lake mientras incorporan eficazmente marcos de aprendizaje profundo en sus aplicaciones, todo en la misma pila Hadoop que ya conocen.

Algunas de las mejoras clave incluyen lo siguiente:

  • Con la semántica ACID habilitada de forma predeterminada, Apache Hive 3.0 pasa a ser más similar a una base de datos tradicional, lo que les permite a los clientes compilar fácilmente aplicaciones de línea de negocio basadas en conjuntos de datos de gran tamaño.
  • Apache Druid es un almacén de datos de código abierto con funcionalidades de indexado/caché basadas en un diseño de almacenamiento orientado por columnas. Con Apache Hive y Apache Druid (ahora disponible de forma predeterminada), los clientes pueden hacer análisis exploratorios casi en tiempo real de los datos entrantes.
  • Con Tensorflow disponible de forma predeterminada y el soporte de GPU, Apache Hadoop 3.0 honestamente abarca los escenarios de aprendizaje automático y aprendizaje profundo.

Debido a la colaboración estrecha y permanente entre Microsoft y Hortonworks, ahora Azure es el primer proveedor importante de la nube que ofrece Apache Hadoop 3.0 administrado. Esto les permite a los clientes de Azure comenzar a compilar nuevas aplicaciones o actualizar las existentes para que funcionen con la nueva plataforma de Apache Hadoop 3.0.

Seguridad de clase empresarial mejorada

El cumplimiento y la seguridad de nivel empresarial son un requisito fundamental de todos los clientes que compilan aplicaciones de macrodatos que almacenan o procesan datos confidenciales financieros, comerciales, personales o de salud en la nube.

Con la disponibilidad general de los clientes de Enterprise Security Package (ESP), ahora puede hacer lo siguiente:

  • Asegúrese de que los usuarios autentiquen sus clústeres de HDInsight con sus credenciales de dominio corporativo.
  • Asegúrese de que los usuarios estén sujetos a directivas de acceso sólidas y detalladas (creadas y administradas en Apache Ranger) según sus directivas corporativas de acceso de datos.
  • Asegúrese de que todo el acceso a datos críticos se registren y estén disponibles en Apache Ranger para las auditorías posteriores o análisis forenses, según sea necesario.

Además, las empresas que usan Apache Kafka agradecerán esta mayor defensa detallada que pueden lograr con el cifrado BYOK para Apache Kafka en HDInsight.

Herramientas avanzadas de depuración para desarrolladores de HDInsight Spark

Los desarrolladores, científicos de datos y analistas ya saben que Azure HDInsight ofrece funcionalidades eficaces de desarrollo y depuración en la herramienta que seleccionen: cuadernos de IntelliJ, Eclipse, VSCode, Jupyter y Apache Zeppelin, etc.

Ahora Microsoft ha llegado un paso más allá. Depurar grandes aplicaciones distribuidas de macrodatos que se ejecutan en cientos de nodos es difícil y lento. Ahora Microsoft aporta sus diez años de experiencia en ejecutar y depurar miles de millones de trabajos en el mundo del código abierto de Apache Spark. Las mejoras clave incluyen lo siguiente:

  • Gráfico de trabajo con reproducción y mapa térmico que identifica cuellos de botella de lectura/escritura.
  • Análisis y visualización de rutas críticas de trabajo.
  • Detección y análisis de asimetría de datos.
  • Administración específica de datos de trabajo, incluida la versión preliminar, descarga y copia de datos.

Disponibilidad de las aplicaciones clave de ISV en Azure HDInsight

Azure HDInsight es compatible con un vibrante ecosistema de aplicaciones con la mayoría de las aplicaciones populares de macrodatos disponibles en Azure Marketplace. Los clientes ahora encontrarán tres nuevas aplicaciones que pueden usar con Azure HDInsight que abarcan áreas clave, como la gobernanza de datos, las consultas compatibles con SQL sobre macrodatos y la migración de aplicaciones a Azure:

  • Starburst: los conectores de Presto en Azure HDInsight escalan a petición e integran otros orígenes de datos con HDInsight.
  • Waterline Data: una solución de gobernanza y catálogo de datos que usan diversos clientes de Azure.

“Estamos muy felices de lanzar el Catálogo de Waterline Data en Microsoft Azure HDInsight, un valioso servicio de análisis para las empresas de petabyte que ahora están migrando montañas de datos a la nube para obtener procesos mucho más rápidos y rentables”, dijo el gerente general de Waterline Data, Kailash Ambwani. “Nuestro Catálogo de Waterline Data altamente escalable y basado en inteligencia artificial amplía el poder de HDInsight al automatizar la clasificación y la gobernanza de datos, lo que permite rápidamente representar todos los datos de la organización disponibles para análisis más rápidos y conclusiones más profundas. Juntos, Microsoft y Waterline Data, están ayudando a las organizaciones a llevar la eficacia de sus datos mucho más lejos, lo que permite de todo, desde servicios de IoT en tiempo real hasta aplicaciones basadas en inteligencia artificial de vanguardia y aplicaciones basadas en aprendizaje automático para lograr una mayor innovación y competitividad en la economía de datos actual”.

Y esto es solo el principio. Se realizarán muchas más actualizaciones de Azure HDInsight pronto. Permanezca atento.

Probar Azure HDInsight ahora

Nos interesa conocer qué compilará con Azure HDInsight. Lea esta guía para desarrolladores y siga la guía de inicio rápido para obtener más información sobre cómo implementar canalizaciones de análisis de código abierto en Azure HDInsight. Para mantenerse al día respecto a las novedades y características más recientes de Azure HDInsight, síganos en Twitter #HDInsight y @AzureHDInsight. Si tiene preguntas o comentarios, comuníquese con nosotros en AskHDInsight@microsoft.com.

Información acerca de Azure HDInsight

Azure HDInsight es un servicio rentable y sencillo de nivel empresarial para el análisis de código abierto que permite a los clientes ejecutar fácilmente marcos populares Apache de código abierto, como Apache Hadoop, Spark, Kafka y otros. El servicio está disponible en 27 regiones públicas y nubes de Azure Government en Estados Unidos y Alemania.

Azure HDInsight impulsa aplicaciones críticas en una gran gama de sectores y habilita una gran variedad de casos de uso, incluidos ETL, streaming y consultas interactivas.