Azure HDInsight apporte au cloud Apache Hadoop 3.0 et une sécurité d’entreprise de nouvelle génération

Publié le 24 septembre, 2018

Principal Group Program Manager, Azure HDInsight

Icône Azure HDInsight

MICROSOFT IGNITE, ORLANDO, Floride, 24 septembre 2018. Plus tôt dans la journée, Microsoft Corporation a annoncé la poursuite de son soutien et de son engagement continus en faveur des entreprises désireuses d’utiliser Apache Hadoop pour l’analyse du Big Data open source dans le cloud. En tête de la série de mises à niveau majeures du service Azure HDInsight figure la préversion d’Apache Hadoop 3.0, mise à jour radicale de la pile Hadoop, que les entreprise attendent depuis le début de l’année. Celle-ci a été rendue possible par le partenariat continu entre Hortonworks et Microsoft. De plus, les entreprises ayant des exigences strictes en matière de sécurité et de conformité pourront sécuriser leurs clusters Azure HDInsight à l’aide du Pack Sécurité Entreprise. Il y a quelque chose pour tout le monde dans cette version. Les développeurs Spark apprécieront en particulier la série d’innovations de Microsoft leur permettant désormais de détecter et résoudre rapidement des goulots d’étranglement de performances dans leur code.

« Ce fut un honneur pour nous de faire partie de la communauté d’analyse open source », a déclaré Ryan Waite, directeur de la gestion des produits Big Data. « Nous plaçons l’analyse open source au cœure de notre stratégie produit, de nos investissements dans HDInsight à notre participation à des projets tels qu’Apache YARN, en passant par l’analyse open source de notre lac de données interne. Le taux d’innovation dans cet espace ne fait qu’augmenter avec Apache Hadoop 3.0. Nous sommes heureux de pouvoir apporter cela à nos clients afin qu’ils puissent eux aussi accélérer leur voyage dans le Big Data. »

Préversion d’Apache Hadoop 3.0 dans Azure HDInsight 4.0

Conduit par Hortonworks, le projet Apache Hadoop 3.0 représente plus de 5 années de travail de la communauté depuis la dernière mise à jour majeure de la pile Hadoop. Les entreprises peuvent désormais concrétiser leur vision du lac de données en intégrant efficacement des infrastructure d’apprentissage profond dans leurs applications, sur la pile Hadoop avec laquelle elles se sentent à l’aise.

Voici quelques-unes de principales améliorations :

  • Avec la sémantique ACID activée par défaut, Apache Hive 3.0 ressemble davantage à une base de données traditionnelle, ce qui permet aux clients de créer plus facilement des applications métier portant sur des jeux de données très volumineux.
  • Apache Druid est une banque de données open source dotée de fonctionnalités d’indexation et de mise en cache par-dessus une disposition de stockage orientée colonne. Avec Apache Hive et Apache Druid (désormais disponibles par défaut), les clients peuvent effectuer des analyses exploratoires de données entrantes en quasi temps réel.
  • Avec Tensorflow, disponible par défaut, et le support de GPU, Apache Hadoop 3.0 cible clairement les scénarios d’apprentissage automatique et d’apprentissage profond.

Grâce à l’étroite collaboration entre Microsoft et Hortonworks, Azure est désormais le premier parmi les fournisseurs de cloud de premier plan à proposer Apache Hadoop 3.0 géré. Cela permettra aux clients Azure de commencer à créer des applications ou de mettre à jour leurs applications existantes pour travailler avec la nouvelle plateforme Apache Hadoop 3.0.

Sécurité de classe Entreprise améliorée

Une sécurité et une conformité de classe Entreprise sont des exigences essentielles de tous les clients créant des applications Big Data qui stockent ou traitent des données sensibles de nature financière, commerciale, personnelle et médicale dans le cloud.

La disponibilité générale du Pack Sécurité Entreprise (ESP) offre désormais aux clients les possibilités suivantes :

  • S’assurer que les utilisateurs s’authentifient auprès de leurs clusters HDInsight à l’aide de leurs informations d’identification de domaine d’entreprise.
  • S’assurer que les utilisateurs sont soumis à des stratégies d’accès riches et précises (créées et gérées dans Apache Ranger) conformes aux stratégies d’accès aux données de leur entreprise.
  • S’assurer que tous les accès aux données critiques sont journalisés et disponibles dans Apache Ranger à des fins de vérification ou d’analyse éventuelles.

De plus, les entreprises utilisant Apache Kafka apprécieront la meilleure défense en profondeur dont elles peuvent bénéficier grâce au chiffrement BYOK pour Apache Kafka sur HDInsight.

Outils de débogage avancés pour les développeurs HDInsight Spark

Les développeurs, les scientifiques des données et les analystes savent déjà qu’Azure HDInsight offre de riches fonctionnalités de développement et de débogage dans l’outil de leur choix : ordinateurs portables IntelliJ, Eclipse, VSCode, Jupyter et Apache Zeppelin, etc.

Microsoft montre désormais encore d’un niveau. Le débogage d’applications volumineuses de Big Data distribuées s’exécutant sur des centaines de nœuds est long et fastidieux. Microsoft met à profit ses dix années d’expérience d’exécution et de débogage de milliards de tâches pour enrichir le monde open source d’Apache Spark. Les améliorations clés sont les suivantes :

  • Graphique des travaux avec lecture et carte thermique identifiant les goulots d’étranglement de lecture/écriture.
  • Analyse et visualisation du chemin critique du travail.
  • Détection et analyse d’asymétrie des données.
  • Gestion des données spécifiques des tâches, dont la prévisualisation, le téléchargement et la copie des données.

Disponibilité d’applications ISV clés sur Azure HDInsight

Azure HDInsight prend en charge un écosystème d’applications dynamique avec les applications Big Data les plus populaires disponibles sur la Place de marché Microsoft Azure. Les clients trouveront désormais trois nouvelles applications utilisables avec Azure HDInsight, couvrant des domaines clés tels que la gouvernance des données, les requêtes de type SQL sur le Big Data et la migration d’applications vers Azure :

  • Starburst : les connecteurs Presto sur Azure HDInsight s’adaptent à la demande et intègrent d’autres sources de données avec HDInsight.
  • Waterline Data : Une solution de catalogage et de gouvernance des données utilisée par plusieurs clients Azure.

« Nous sommes très heureux de lancer le catalogue Waterline Data sur Microsoft Azure HDInsight, un service d’analyse précieux pour les innombrables entreprises qui migrent leurs montagnes de données vers le cloud pour un traitement sensiblement plus rapide et économique », a déclaré Kailash Ambwani, PDG de Waterline Data. « Notre catalogue Waterline Data, hautement évolutif et piloté par l’intelligence artificielle, étend la puissance de HDInsight en automatisant la classification et la gouvernance des données pour rendre rapidement disponibles toutes les données de l’organisation afin d’accélérer l’analytique et d’approfondir les informations. Ensemble, Microsoft et Waterline Data aident les organisations à atteindre de nouveaux sommets dans l’exploitation de leurs données, en mobilisant toutes les ressources disponibles, des services IoT en temps réel à l’intelligence artificielle de pointe, en passant par les applications basées sur l’apprentissage automatique, pour aboutir à une innovation et une compétitivité accrues au sein de l’économie de données d’aujourd’hui. »

Et ce n’est que le début. Il y aura bientôt beaucoup d’autres mises à jour d’Azure HDInsight. Restez connecté !

Essayez Azure HDInsight maintenant

Nous sommes impatients de voir ce que vous allez créer avec Azure HDInsight. Lisez ce guide du développeur et suivez le guide de démarrage rapide pour en savoir plus sur l’implémentation de pipelines d’analyse open source sur Azure HDInsight. Tenez-vous informé des dernières actualités et fonctionnalités d’Azure HDInsight en nous suivant sur Twitter #HDInsight et @AzureHDInsight. Pour poser des questions et formuler des commentaires, veuillez écrire à AskHDInsight@microsoft.com.

À propose d’Azure HDInsight

Azure HDInsight est un service facile à utiliser et économique de classe Entreprise pour l’analytique open source, qui permet aux clients d’exécuter facilement des infrastructures open source Apache populaires, telles que Spark, Apache Hadoop, Kafka, etc. Le service est disponible dans 27 régions publiques et clouds Azure Government aux États-Unis et en Allemagne.

Azure HDInsight sous-tend des applications stratégiques dans de nombreux secteurs et couvrant un vaste éventail de cas d’utilisation, de l’ETL (extraction, transformation et chargement) à la diffusion en continu, en passant par l’interrogation interactive.