Apache Spark para HDInsight de Azure

Apache Spark en la nube para implementaciones críticas

¿Qué es Apache Spark?

Apache Spark es un marco de procesamiento de código abierto que ejecuta aplicaciones de análisis de datos a gran escala. Basado en un motor de proceso en memoria, Spark permite consultas de alto rendimiento en macrodatos. Aprovecha un marco de procesamiento paralelo de datos que mantiene los datos en memoria y en disco si es necesario. Esto permite a Spark ofrecer una velocidad 100 veces mayor y un modelo de ejecución común para varias tareas, como extraer, transformar, cargar (ETL), consultas por lotes, consultas interactivas y otras operaciones con datos en un Sistema de archivos distribuido de Hadoop (HDFS). Azure permite que la implementación de Apache Spark resulte sencilla y rentable, sin necesidad de comprar hardware, sin software que configurar, con una experiencia de cuaderno completa para crear magníficos documentos e integración con herramientas de inteligencia empresarial de asociados.

Vea un vídeo introductorio

El motor principal de Apache Spark proporciona un marco de procesamiento que puede combinar diferentes tipos de procesamiento, como Spark SQL, Spark Streaming, MLlib (aprendizaje automático) y GraphX (cálculo gráfico).

Un modelo de ejecución para varias tareas

Apache Spark aprovecha un modelo de ejecución común para realizar varias tareas, como ETL, consultas por lotes, consultas interactivas, streaming en directo, aprendizaje automático y procesamiento de gráficos con datos guardados en Almacén de Data Lake de Azure. Gracias a esto, puede usar Spark para HDInsight de Azure para solucionar desafíos de macrodatos casi en tiempo real, como la detección de fraudes, análisis de clickstream, alertas financieras, telemetría de sensores y dispositivos conectados (Internet de las cosas, IoT), análisis social, canalizaciones ETL siempre activadas y supervisión de redes.

Procesamiento en memoria para escenarios interactivos

Los usuarios de hoy esperan respuestas rápidas a sus consultas en lugar de tener que esperar minutos, horas o días. Apache Spark realiza entregas conservando datos en memoria para lograr consultas hasta 100 veces más rápidas procesando al mismo tiempo conjuntos de datos grandes en Hadoop. Esto hace que Spark para HDInsight de Azure sea ideal para agilizar las aplicaciones que hacen un uso intensivo de macrodatos.

Experiencias para desarrolladores nativos y depuración remota mediante IntelliJ IDEA

Para facilitar el desarrollo en Spark, hemos presentado la integración profunda con IntelliJ IDEA para permitir a los desarrolladores codificar con compatibilidad de creación nativa para Scala y Java. Puede realizar depuración remota, lo que proporciona flexibilidad en el ciclo de vida de desarrollo y la posibilidad de enviar la aplicación a Azure cuando esté preparada. Los clústeres Spark para HDInsight también están precargados con las bibliotecas de Python (Anaconda) más comunes para el aprendizaje automático.

Aprovechamiento de las herramientas de BI para analizar macrodatos interactivamente

Para analistas de negocios, ofrecemos integración con Power BI junto a otras herramientas de inteligencia empresarial, como Tableau, SAP Lumira y QlikView. Esto le permite crear visualizaciones interactivas sobre los datos de cualquier tamaño. Además de los paneles tradicionales, Power BI ofrece un conector de streaming que tiene integración con Spark, lo que permite publicar eventos en tiempo real desde Spark Streaming directamente en Power BI.

Experiencia de cuaderno lista para usarse

A diferencia de otras ofertas de Spark, para las que tiene que instalar sus propios cuadernos o aprovechar los suyos propios, Spark para HDInsight tiene una integración lista para usarse con Jupyter (iPython), el cuaderno de código fuente más popular del mercado. Esto permite crear documentos que combinan código, ecuaciones estadísticas y visualizaciones que cuentan la historia de los datos. Para simplificar la integración para nuestros clientes, hemos trabajados con la comunidad de Jupyter para mejorar el kernel permitiendo la ejecución de Spark a través de un punto de conexión de REST, lo que proporciona una experiencia convincente para los científicos de datos.

Integración con R Server: el análisis en paralelo compatible con R más largo y biblioteca ML

Spark para Azure HDInsight puede aprovecharse como un motor para ejecutar R Server, que dispone de los análisis paralelos de mayor tamaño y de una biblioteca de aprendizaje automático incorporada para que funcione con el lenguaje de R de código abierto. Esto le permite aprovechar la familiaridad con R, con la escala empresarial de R Server ejecutándose en Spark. Las bibliotecas matemáticas multiproceso y la paralelización transparente en R Server combinadas con Spark permiten manejar datos hasta 1000 veces más grandes y con una velocidad hasta 50 veces mayor que con el lenguaje R de código abierto, lo que permite crear modelos más precisos para obtener predicciones mejores que las anteriores.

Máxima garantía de disponibilidad para continuidad empresarial

Para ejecutar Spark a escala máxima, Microsoft proporciona el Acuerdo de Nivel de Servicio de máxima disponibilidad de la industria con una garantía del 99,9 % para proteger su continuidad empresarial y proporcionar protección contra eventos catastróficos. Lo hemos llevado a cabo liderando junto con Cloudera el proyecto Livy para crear un servicio web de REST con licencia de Apache de código abierto para administrar contextos de Spark de larga duración y enviando trabajos de Spark. Esta nueva funcionalidad se diseñó para hacer de Spark un back-end más robusto para ejecutar cuadernos interactivos y permitir a otras aplicaciones aprovechar Spark para sus cargas de trabajo interactivas.

Análisis de cualquier dato sea cual sea su tamaño sin cambios a medida que la información crece

Para asegurarse de que Spark se ejecutará a escala, integramos Spark con Almacén de Data Lake de Azure. Esta integración está excepcionalmente disponible desde Microsoft, lo que permite a Spark procesar y almacenar datos que se escalan a cualquier tamaño sin exigir cambios en la aplicación a medida que los datos crecen. A través de esta integración, puede implementar controles de acceso a datos basados en roles en el almacenamiento.

Procesamiento en tiempo real para escenarios en tiempo real

El mundo conectado de hoy día se define por Big Data que llega justo a tiempo. Spark Stream para HDInsight es ideal para el desafío que suponen los escenarios en tiempo real. Hace posibles varias oportunidades, incluidos escenarios IoT, como la administración y la supervisión remotas en tiempo real o la obtención de información detallada de dispositivos como teléfonos móviles o automóviles conectados.

Fácil instalación y resultados rápidos

Spark para HDInsight no precisa tareas de instalación o configuración que requieran mucho tiempo. Azure se encarga de todo. Spark se pone en marcha en cuestión de minutos y se puede implementar sin necesidad de comprar hardware ni de hacer frente a otras inversiones iniciales.

Capacidad elástica para macrodatos

Spark para HDInsight aprovecha el potencial de la nube de Azure y facilita la creación de clústeres de cualquier tamaño para procesar cualquier cantidad de datos a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.

Pruebe HDInsight gratis