Apache Spark pour Azure HDInsight

Apache Spark dans le cloud pour les déploiements stratégiques

Qu’est-ce qu’Apache Spark ?

Apache Spark est une infrastructure de traitement open source qui exécute des applications d’analyse de données à grande échelle. Spark est basé sur un moteur de calcul en mémoire, ce qui permet d’effectuer des requêtes hautes performances sur les Big Data. Il tire parti d’une infrastructure de traitement de données parallèle qui conserve les données en mémoire et sur disque si besoin. Spark fournit ainsi une vitesse 100 fois plus rapide et un modèle d’exécution commun à des tâches, telles que ETL (extract, transform, load), les traitements par lots, les requêtes interactives et d’autres tâches sur les données dans le système HDFS (Hadoop Distributed File System) d’Apache. Azure permet de déployer Apache Spark facilement et à moindre coût sans qu’il soit nécessaire d’acheter du matériel ou de configurer des logiciels. Apache Spark fournit également une interface de bloc-notes complète permettant de rédiger des informations techniques percutantes et une intégration avec les outils décisionnels partenaires.

Visionnez une vidéo de présentation sur Apache Spark

Le moteur central d’Apache Spark offre une infrastructure de traitement qui peut combiner différents types de traitement, dont Sparks SQL, Spark Streaming, MLlib (apprentissage automatique) et GraphX (calcul graphique).

Un seul modèle d’exécution pour plusieurs tâches

Apache Spark tire parti d’un modèle d’exécution commun qui permet d’effectuer de multiples tâches telles qu’ETL, les requêtes par lots, les requêtes interactives, le streaming en temps réel, l’apprentissage automatique (Machine Learning) et le traitement des graphiques pour les données stockées dans Azure Data Lake Store. Vous pouvez ainsi utiliser Spark pour Azure HDInsight afin de résoudre les défis posés par les Big Data en temps quasi réel, comme la détection des fraudes, l’analyse des parcours de visite, les alertes financières, la télémétrie provenant d’appareils et de capteurs de l’Internet des objets (IoT), l’analyse sociale, les pipelines ETL « toujours actifs » et l’analyse de réseau.

Traitement en mémoire pour les scénarios interactifs

De nos jours, les utilisateurs veulent obtenir des réponses à leurs questions instantanément, sans devoir attendre plusieurs minutes, heures ou jours. Apache Spark répond à leurs attentes en conservant les données en mémoire pour obtenir des requêtes 100 fois plus rapides tout en traitant de volumineux jeux de données dans Hadoop. Spark pour Azure HDInsight est donc idéal pour accélérer le fonctionnement des applications grandes consommatrices de Big Data.

Utilisez IntelliJ IDEA dans le cadre d’expériences de développement natives et du débogage à distance

Pour faciliter le développement sur Spark, nous avons introduit l’intégration approfondie avec IntelliJ IDEA, qui vous permet de coder avec une prise en charge de la création native pour Scala et Java. Vous pouvez effectuer un débogage à distance, ce qui offre un cycle de développement flexible et vous permet d’envoyer l’application dans Azure lorsque cette dernière est prête. Les clusters Spark pour HDInsight intègrent également les bibliothèques Python populaires (Anaconda) pour l’apprentissage automatique.

Utilisez les outils décisionnels pour analyser les Big Data de manière interactive

Pour les analystes, nous offrons l’intégration avec Power BI, ainsi que d’autres outils décisionnels comme Tableau, SAP BusinessObjects Lumira et QlikView. Cela vous permet de générer des visualisations interactives basées sur les données de toutes tailles. Outre les tableaux de bord traditionnels, Power BI propose un connecteur de streaming intégré avec Spark, ce qui vous permet de publier des événements en temps réel depuis Spark Streaming, directement vers Power BI.

Interface de bloc-notes prête à l’emploi

Contrairement aux autres offres Spark, qui nécessitent que vous installiez vos propres blocs-notes ou que vous exploitiez des blocs-notes propriétaires, Spark pour HDInsight est directement intégré à Jupyter (iPython), le Notebook open source le plus populaire du marché. Vous pouvez rédiger des informations techniques percutantes combinant du code, des équations statistiques et des visualisations pour raconter l’histoire des données. Pour que l’intégration soit plus aisée pour vous, nous avons collaboré avec la communauté Jupyter afin d’améliorer le noyau et d’autoriser l’exécution de Spark par le biais d’un point de terminaison REST. Les chercheurs de données disposent ainsi d’une expérience attrayante.

Intégration avec R Server : volumineuse bibliothèque d’analyse parallèle et d’apprentissage automatique compatible R

Utilisez Spark pour Azure HDInsight en tant que moteur pour exécuter R Server, qui dispose de la plus vaste bibliothèque d’analyse parallèle et d’apprentissage automatique intégrée conçue pour fonctionner avec le langage R open source. Cela vous permet de tirer parti de votre connaissance de R, avec la dimension professionnelle qu’apporte R Server s’exécutant sur Spark. Grâce à la combinaison des bibliothèques mathématiques multithread et de la parallélisation transparente dans R Server avec Spark, en comparaison de la solution R open source, vous pouvez gérer jusqu’à 1 000 fois plus de données à une vitesse jusqu’à 50 fois supérieure. Vous pouvez ainsi former des modèles plus précis permettant d’obtenir des prédictions meilleures qu’auparavant.

Disponibilité la plus haute pour la continuité des activités

Pour exécuter Spark à l’échelle la plus grande possible, Microsoft offre une disponibilité de 99,9 % par le biais d’un contrat SLA afin de garantir la continuité d’activité et la protection en cas d’événements catastrophiques. En collaboration avec Cloudera, nous avons mené le projet Livy afin de créer un service web REST sous licence Apache open source pour la gestion de contextes Spark de longue durée et l’envoi de travaux Spark. Cette nouvelle fonctionnalité est conçue afin que Spark devienne un backend plus robuste pour l’exécution de bloc-notes interactifs, avec comme objectif d’autoriser les autres applications à tirer parti de Spark pour leurs charges de travail interactives.

Analysez les données de toutes tailles sans changements à mesure que le volume de vos données s’accroît

Pour garantir l’exécution à l’échelle de Spark, nous l’avons intégré avec Azure Data Lake Store. Cette intégration est uniquement disponible par le biais de Microsoft. Elle permet de stocker et de traiter les données mises à l’échelle, quelle que soit la taille, sans devoir appliquer de modifications à mesure que le volume de données s’accroît. L’intégration vous permet d’implémenter des contrôles d’accès en fonction du rôle au niveau du stockage.

Traitement en temps réel dans le cadre de scénarios en temps réel

Le monde connecté dans lequel nous vivons aujourd'hui est défini par les Big Data qui arrivent en temps réel. Spark Stream pour HDInsight est idéal pour les scénarios en temps réel complexes. Il prend en charge divers cas de figure, notamment les scénarios IoT (Internet of Things, Internet des objets), la surveillance et la gestion à distance en temps réel ou la récupération d’insights provenant d’appareils (comme les téléphones portables ou les voitures connectées).

Installation facile et résultats rapides

Aucune installation ou configuration fastidieuse n’est requise avec Spark pour HDInsight. Azure s'en charge pour vous. Vous êtes opérationnel en quelques minutes et vous pouvez déployer Spark sans investissement matériel ou financier préalable.

Capacité élastique pour les Big Data

Spark pour HDInsight tire parti de la puissance d’Azure, facilitant ainsi la création de clusters de toute taille pour traiter une quantité quelconque de données à la demande. Vous payez uniquement le calcul et le stockage que vous utilisez.

Essayer HDInsight gratuitement