Apache Spark pour Azure HDInsight

Apache Spark dans le cloud pour les déploiements stratégiques

Qu’est-ce qu’Apache Spark ?

Apache Spark est une infrastructure de traitement open source qui exécute des applications d'analyse de données à grande échelle. Basé sur un moteur de calcul en mémoire, Spark est connu pour ces requêtes hautes performances sur les Big Data. Il tire parti d'une infrastructure de traitement de données parallèle qui conserve les données en mémoire et sur disque si besoin. Spark fournit ainsi une vitesse 100 fois plus rapide et un modèle d'exécution commun à diverses tâches, telles que ETL (extract, transform, load), les traitements par lots, les requêtes interactives et d’autres tâches sur les données dans HDFS. Azure permet de déployer Apache Spark facilement et à moindre coût sans qu’il soit nécessaire d’acheter du matériel ou de configurer des logiciels. Apache Spark fournit également une interface de bloc-notes complète permettant de rédiger des informations techniques percutantes et une intégration avec les outils décisionnels partenaires.

Visionner une vidéo de présentation

Le moteur central d’Apache Spark offre une infrastructure de traitement qui peut combiner différents types de traitement, dont Sparks SQL, Spark Streaming, MLlib (apprentissage automatique) et GraphX (calcul graphique).

Un seul modèle d'exécution pour plusieurs tâches

Apache Spark tire parti d’un modèle d’exécution commun qui permet d’effectuer de multiples tâches telles qu’ETL, les requêtes par lots, les requêtes interactives, le streaming en temps réel, l’apprentissage automatique et le traitement des graphiques pour les données stockées dans Azure Data Lake Store. Vous pouvez ainsi utiliser Spark pour Azure HDInsight afin de résoudre les défis posés par les Big Data en temps quasi réel, comme la détection des fraudes, l’analyse des parcours de visite, les alertes financières, la télémétrie provenant d’appareils et de capteurs connectés (IoT), l’analyse sociale, les pipelines ETL « toujours actifs » et l’analyse de réseau.

Traitement en mémoire pour les scénarios interactifs

De nos jours, les utilisateurs veulent obtenir des réponses à leurs questions instantanément, sans devoir attendre plusieurs minutes, heures ou jours. Apache Spark répond à leurs attentes en conservant les données en mémoire pour obtenir des requêtes 100 fois plus rapides tout en traitant de volumineux jeux de données dans Hadoop. Spark pour Azure HDInsight est donc idéal pour accélérer le fonctionnement des applications grandes consommatrices de Big Data.

Expérience de développement native et débogage à distance à l’aide d’IntelliJ IDEA

Pour faciliter le développement sur Spark, nous avons introduit l’intégration approfondie avec IntelliJ IDEA, qui permet aux développeurs de coder avec une prise en charge de la création native pour Scala et Java. Vous pouvez effectuer un débogage à distance, ce qui offre un cycle de développement flexible et vous permet d’envoyer l’application dans Azure lorsque cette dernière est prête. Les clusters Spark pour HDInsight intègrent également les bibliothèques Python populaires (Anaconda) pour l’apprentissage automatique.

Tirez parti des outils de décisionnel pour analyser les Big Data de manière interactive

Pour les analystes, nous offrons l’intégration avec Power BI, ainsi que d’autres outils de décisionnel comme Tableau, SAP Lumira et QlikView. Cela vous permet de générer des visualisations interactives basées sur les données de toutes tailles. Outre les tableaux de bord traditionnels, Power BI offre un connecteur de streaming intégré avec Spark, ce qui vous permet de publier des événements en temps réel depuis Spark Streaming, directement vers Power BI.

Interface de bloc-notes prête à l’emploi

Contrairement aux autres offres Spark, qui nécessitent que vous installiez vos propres blocs-notes ou que vous exploitiez des blocs-notes propriétaires, Spark pour HDInsight est directement intégré à Jupyter (iPython), le bloc-notes open source le plus populaire du marché. Vous pouvez rédiger des informations techniques percutantes combinant du code, des équations statistiques et des visualisations pour raconter l’histoire des données. Pour simplifier l’intégration pour nos clients, nous avons collaboré avec la communauté Jupyter pour améliorer le noyau autorisant l’exécution de Spark par le biais d’un point de terminaison REST. Les chercheurs de données disposent ainsi d’une expérience attrayante.

Intégration avec R Server : la plus grande bibliothèque d’analyse parallèle et d’apprentissage automatique compatible R

Vous pouvez utiliser Spark pour Azure HDInsight en tant que moteur pour exécuter R Server, qui dispose de la plus vaste bibliothèque d’analyse parallèle et d’apprentissage automatique intégrée pour fonctionner avec le langage R open source. Cela vous permet de tirer parti de votre connaissance de R, avec la dimension professionnelle qu’apporte R Server s’exécutant sur Spark. Grâce à la combinaison des bibliothèques mathématiques multithread et de la parallélisation transparente dans R Server avec Spark, en comparaison de la solution R open source, vous pouvez gérer jusqu’à 1 000 fois plus de données à une vitesse jusqu’à 50 fois supérieure. Vous pouvez ainsi former des modèles plus précis permettant d’obtenir des prédictions meilleures qu’auparavant.

Disponibilité la plus haute garantissant la continuité des activités

Pour exécuter Spark à l’échelle la plus grande possible, Microsoft fournit une garantie de disponibilité de 99,9 % par le biais d’un contrat SLA. Ceci garantit la continuité d’activité et la protection en cas d’événements catastrophiques. Pour cela, en collaboration avec Cloudera, nous avons mené le projet Livy afin de créer un service web REST sous licence Apache open source pour la gestion de contextes Spark de longue durée et l’envoi de tâches Spark. Cette nouvelle fonctionnalité a été conçue afin que Spark devienne un backend plus robuste pour l’exécution de bloc-notes interactifs et avec comme objectif d’autoriser les autres applications à tirer parti de Spark pour leurs charges de travail interactives.

Analysez les données de toutes tailles sans changements à mesure que le volume de vos données s’accroît

Pour garantir l’exécution à l’échelle de Spark, nous l’avons intégré avec Azure Data Lake Store. Cette intégration est uniquement disponible par le biais de Microsoft. Elle permet de stocker et de traiter les données mises à l’échelle, quelle que soit la taille, sans devoir appliquer de modifications à mesure que le volume de données s’accroît. L’intégration vous permet également d’implémenter des contrôles d’accès en fonction du rôle au niveau du stockage.

Traitement en temps réel dans le cadre de scénarios en temps réel

Le monde connecté dans lequel nous vivons aujourd'hui est défini par les Big Data qui arrivent en temps réel. Spark Stream pour HDInsight est idéal pour les scénarios en temps réel complexes. Il prend en charge diverses possibilités, notamment les scénarios de l’Internet des objets (IoT, Internet of Things) tels que la surveillance et l’administration à distance en temps réel ou la récupération d’informations provenant d’appareils (comme les téléphones portables ou les voitures connectées).

Installation facile et résultats rapides

Avec Spark pour HDInsight, aucune installation ou configuration fastidieuse n'est requise. Azure s'en charge pour vous. Vous êtes opérationnel en quelques minutes et vous pouvez déployer Spark sans investissement matériel ou financier préalable.

Capacité élastique pour les Big Data

Spark pour HDInsight tire parti de la puissance du cloud Azure, ce qui facilite la création de clusters de toutes les tailles pour traiter n'importe quel volume de données à la demande. Nous ne facturons que le calcul et le stockage que vous utilisez réellement.

Essayer HDInsight gratuitement