Apache Spark para HDInsight de Azure

Apache Spark en la nube para implementaciones críticas

¿Qué es Apache Spark?

Apache Spark es un marco de procesamiento de código abierto que ejecuta aplicaciones de análisis de datos a gran escala. Spark se basa en un motor de proceso en memoria, que permite consultas de alto rendimiento en macrodatos. Aprovecha un marco de procesamiento de datos en paralelo que mantiene los datos en memoria y en disco si es necesario. Esto permite a Spark ofrecer una velocidad 100 veces mayor y un modelo de ejecución común para tareas tales como extraer, transformar, cargar (ETL), tareas por lotes, consultas interactivas y otras operaciones con datos en un sistema de archivos distribuido de Apache Hadoop (HDFS). Azure permite que la implementación de Apache Spark resulte sencilla y rentable, sin necesidad de comprar hardware, sin software que configurar, con una experiencia de cuaderno completa para crear magníficos documentos e integración con herramientas de inteligencia empresarial de asociados.

Vea un vídeo introductorio sobre Apache Spark

El motor principal de Apache Spark proporciona un marco de procesamiento que puede combinar diferentes tipos de procesamiento, como Spark SQL, Spark Streaming, MLlib (aprendizaje automático) y GraphX (cálculo gráfico).

Un solo modelo de ejecución para varias tareas

Apache Spark aprovecha un modelo de ejecución común para realizar varias tareas, como ETL, consultas por lotes, consultas interactivas, streaming en directo, aprendizaje automático y procesamiento de grafos con datos guardados en Azure Data Lake Store. Gracias a esto, puede usar Spark para Azure HDInsight para solucionar desafíos de macrodatos casi en tiempo real, como detección de fraudes, análisis clickstream, alertas financieras, telemetría de sensores y dispositivos de IoT (Internet de las cosas), análisis social, canalizaciones ETL siempre activas y supervisión de redes.

Procesamiento en memoria para escenarios interactivos

Los clientes actuales esperan respuestas rápidas a sus dudas, sin tener que esperar minutos, horas o días. Apache Spark realiza entregas conservando datos en memoria para lograr consultas hasta 100 veces más rápidas procesando al mismo tiempo grandes conjuntos de datos en Hadoop. Esto hace que Spark para HDInsight de Azure sea ideal para agilizar las aplicaciones que hacen un uso intensivo de macrodatos.

Uso de IntelliJ IDEA para experiencias para desarrolladores nativos y depuración remota

Para facilitar el desarrollo en Spark, hemos presentado una integración profunda con IntelliJ IDEA que le permite codificar con compatibilidad de creación nativa para Scala y Java. Puede realizar depuración remota, lo que proporciona flexibilidad en el ciclo de vida de desarrollo y la posibilidad de enviar la aplicación a Azure cuando esté preparada. Los clústeres Spark para HDInsight también están precargados con las bibliotecas de Python (Anaconda) más comunes para el aprendizaje automático.

Aproveche las herramientas de BI para analizar macrodatos interactivamente

Para analistas de negocios, ofrecemos integración con Power BI junto a otras herramientas de inteligencia empresarial, como Tableau, SAP BusinessObjects Lumira y QlikView. Esto le permite crear visualizaciones interactivas sobre los datos de cualquier tamaño. Además de los paneles tradicionales, Power BI ofrece un conector de streaming que se integra con Spark, lo que permite publicar eventos en tiempo real desde Spark Streaming directamente en Power BI.

Experiencia de cuaderno lista para usarse

A diferencia de otras ofertas de Spark, para las que tiene que instalar sus propios cuadernos o aprovechar los de propietario, Spark para HDInsight presenta integración inmediata con Jupyter (iPython), el cuaderno de código fuente más popular del mercado. Esto permite crear documentos que combinan código, ecuaciones estadísticas y visualizaciones que cuentan la historia de los datos. Para que la integración le resulte más fácil, hemos trabajado con la comunidad de Jupyter para mejorar el kernel y permitir la ejecución de Spark a través de un punto de conexión de REST, lo que supone una experiencia atractiva para los científicos de datos.

Integración con R Server: un análisis en paralelo de gran tamaño compatible con R y una biblioteca de aprendizaje automático

Use Spark para Azure HDInsight como motor para ejecutar R Server, que cuenta con un análisis en paralelo de gran tamaño y una biblioteca de aprendizaje automático incorporada para que funcione con el lenguaje de R de código abierto. Esto le permite aprovechar el conocimiento de R, con la escala empresarial de R Server en ejecución en Spark. Las bibliotecas matemáticas multiproceso y la paralelización transparente de R Server combinadas con Spark permiten manejar volúmenes de datos hasta 1000 mayores y con una velocidad hasta 50 veces mayor que con el lenguaje R de código abierto, lo que permite crear modelos más precisos para obtener predicciones mejores que nunca antes.

Máxima disponibilidad para continuidad empresarial

Para ejecutar Spark a escala máxima, Microsoft ofrece el Acuerdo de Nivel de Servicio de máxima disponibilidad del sector, del 99,9 %, para asegurar su continuidad empresarial y protección contra eventos catastróficos. Con Cloudera y el proyecto Livy hemos dirigido la creación de un servicio web de REST con licencia de Apache de código abierto para administrar contextos de Spark de larga duración y enviar trabajos de Spark. Esta nueva funcionalidad se ha diseñado para hacer de Spark un back-end más robusto para ejecutar cuadernos interactivos y permitir a otras aplicaciones aprovechar Spark para sus cargas de trabajo interactivas.

Análisis de cualquier dato sea cual sea su tamaño sin cambios a medida que la información crece

Para tener la seguridad de que Spark se ejecuta a escala, integramos Spark con Azure Data Lake Store. Esta integración está excepcionalmente disponible desde Microsoft y permite a Spark procesar y almacenar datos que se escalan a cualquier tamaño sin exigir cambios en la aplicación a medida que los datos crecen. A través de esta integración, puede implementar controles de acceso a datos basados en roles en el almacenamiento.

Procesamiento en tiempo real para escenarios en tiempo real

El mundo conectado de hoy día se define por Big Data que llega justo a tiempo. Spark Stream para HDInsight es ideal para el desafío que suponen los escenarios en tiempo real. Entre otras posibilidades, permite escenarios IoT (Internet de las cosas), administración y supervisión remotas en tiempo real y obtención de información de dispositivos como teléfonos móviles y automóviles conectados.

Fácil instalación y resultados rápidos

Con Spark para HDInsight no hay tareas de instalación o configuración que requieran mucho tiempo. Azure se encarga de todo. Spark se pone en marcha en cuestión de minutos y se puede implementar sin necesidad de comprar hardware ni de hacer frente a otras inversiones iniciales.

Capacidad elástica para macrodatos

Spark para HDInsight se beneficia de la potencia de Azure, que facilita la creación de clústeres de todos los tamaños para procesar cualquier cantidad de datos a petición. Solo pagará por el proceso y el almacenamiento que utilice.

Pruebe HDInsight gratis