Disponibilité générale d’Apache Hadoop 3.0 sur Azure HDInsight

Publié le 15 avril, 2019

Principal Group Program Manager, Azure HDInsight

imageNous annonçons aujourd’hui la disponibilité générale d’Apache Hadoop 3.0 sur Azure HDInsight. En partenariat avec Cloudera, Microsoft Azure est le premier fournisseur de services cloud à proposer à ses clients les avantages des dernières innovations des projets d’analyse open source les plus populaires, et ce avec une évolutivité, une flexibilité et une sécurité inégalées. Avec la disponibilité générale d’Apache Hadoop 3.0 sur Azure HDInsight, nous étendons les capacités existantes avec un certain nombre d’améliorations clés qui viennent améliorer les performances et la sécurité et renforcer la compatibilité avec l’écosystème des applications d’analyse big data.

Apache Hadoop 3.0 et ses performances de haut niveau arrivent dans le cloud

Apache Hadoop 3.0 représente plus de 5 ans de mises à niveau majeures par la communauté open source sur différentes infrastructures Apache clés comme Hive, Spark et HBase. Les nouvelles fonctionnalités présentes dans Hadoop 3.0 offrent une amélioration significative en termes de performances, d’évolutivité et de disponibilité, ce qui réduit le coût total de possession et accélère la création de valeur.

  • Apache Hive 3.0 : avec les transactions ACID activées par défaut et de nombreuses améliorations dans le domaine des performances, cette version de Hive offre aux développeurs la possibilité de créer des applications de « base de données classique » sur des data lakes de très grande taille. Cette possibilité est particulièrement importante pour les entreprises qui doivent créer des applications Big Data conformes aux exigences relatives au RGPD ou à la confidentialité.
  • Connecteur Hive Warehouse pour Apache Spark : avec le connecteur Hive Warehouse, les mondes Spark et Hive se rapprochent encore plus l’un de l’autre. Le nouveau connecteur fait passer l’intégration de la couche metastore à la couche du moteur de requêtes. Ceci permet d’atteindre des performances plus élevées et de façon plus fiable, avec pushdown de prédicat et autres fonctionnalités.
  • Apache HBase 2.0 et Apache Phoenix 5.0 : Apache HBase 2.0 et Apache Phoenix 5.0 offrent plusieurs améliorations dans le domaine des performances, de la stabilité et de l’intégration. Avec HBase 2.0, la réorganisation régulière des données dans le stockage mémoire, avec compactage en mémoire, améliore les performances, les données n’étant plus vidées ou lues trop souvent depuis un stockage cloud distant. Phoenix 5.0 offre une meilleure visibilité sur les requêtes avec un journal des requêtes qui utilise une nouvelle table système qui enregistre les informations sur les requêtes en cours d’exécution dans le cluster.
  • Spark IO Cache : IO Cache est un service de mise en cache de données pour Azure HDInsight qui améliore les performances des travaux Apache Spark. IO Cache fonctionne également avec les charges de travail Apache TEZ et Apache Hive, qui peuvent être exécutées sur des clusters Apache Spark.

Sécurité de classe Entreprise améliorée

Une sécurité et une conformité de classe Entreprise sont des exigences essentielles de tous les clients créant des applications Big Data qui stockent ou traitent des données sensibles dans le cloud.

  • Prise en charge du Pack Sécurité Entreprise pour Apache HBase : avec la disponibilité générale de la prise en charge de ce pack pour HBase, les clients peuvent s’assurer que leurs utilisateurs s’authentifient dans les clusters HDInsight HBase à l’aide de leurs informations d’identification de domaine et sont soumis à des stratégies d’accès détaillées (créées et gérées dans Apache Ranger).
  • Prise en charge BYOK (Bring Your Own Key) pour Apache Kafka : les clients peuvent désormais appliquer leurs propres clés de chiffrement dans Azure Key Vault et les utiliser pour chiffrer les disques managés Azure qui stockent leurs messages Apache Kafka. Ceci leur offre plus de contrôle sur la sécurité des données.

Outils de développement riches

Azure HDInsight propose une expérience de développement enrichie, avec des extensions de l’IDE, des notebooks et des SDK.

  • Disponibilité générale des SDK : les kits de développement logiciel (SDK) HDInsight pour .NET, Python et Java permettent aux développeurs de gérer facilement les clusters à l’aide du langage qu’ils choisissent.
  • VSCode : l’extension HDInsight VSCode offre aux développeurs la possibilité d’envoyer des tâches Hive par lot, des requêtes Hive interactives et des scripts PySpark vers les clusters HDInsight 4.0.
  • IntelliJ : Azure Toolkit for IntelliJ permet aux développeurs Scala et Java de programmer des projets Spark, Scala et Java avec des modèles intégrés. Ils peuvent ainsi très facilement les exécuter ou les déboguer en local, ouvrir des sessions interactives et envoyer des projets Scala/Java vers les clusters HDInsight 4.0 Spark directement depuis l’environnement de développement intégré IntelliJ.

Large écosystème d’applications

Azure HDInsight fonctionne avec un large écosystème d’applications, avec plusieurs applications Big Data disponibles sur la Place de marché Azure, et qui couvrent différents scénarios, de l’analyse interactive à la migration des applications. Voici quelques-unes de ces applications :

  • Starburst (Presto) : Presto est un moteur de requêtes SQL open source, rapide et évolutif, qui vous permet d’analyser les données n’importe où dans votre organisation. Conçu pour séparer le calcul du stockage, Presto peut facilement interroger des données dans les bases de données Stockage Blob Azure, Azure Data Lake Storage, SQL et NoSQL et autres sources de données. Plus d’informations sur Starburst Presto sur la Place de marché Azure.
  • Kyligence : Kyligence est un moteur de traitement d’analyse en ligne pour le Big Data, qui utilise Apache Kylin. Avec Kyligence, il est possible d’utiliser une analyse d’entreprise en libre-service sur Azure, avec des latences de moins d’une seconde sur des trillions d’enregistrements et l’intégration des systèmes Hadoop et BI existants. Plus d’informations sur Kyligence sur la Place de marché Azure.
  • WANDisco : WANDisco Fusion élimine les risques liés à la migration dans cloud avec des migrations de données sans interruption, des extensions simples et transparentes des déploiements Spark et Hadoop et des opérations de données hybrides à court ou à long terme. Plus d’informations sur WANDisco sur la Place de marché Azure.
  • Unravel Data : Unravel fournit une vue unifiée de l’ensemble des piles de données, avec des recommandations exploitables et des systèmes d’automatisation pour le réglage, la résolution des problèmes et l’amélioration des performances. L’application Unravel Data utilise Azure Resource Manager, qui permet aux clients de connecter Unravel en un clic à un cluster HDInsight, qu’il soit nouveau ou existant. Plus d’informations sur Unravel sur la Place de marché Azure.
  • Waterline Data : avec Waterline Data Catalog et HDInsight, les clients peuvent découvrir, organiser et gouverner leurs données à l’échelle globale d’Azure. Plus d’informations sur Waterline sur la Place de marché Azure.

Mise en route immédiate

Nous sommes impatients de découvrir les innovations que vous allez proposer à vos utilisateurs et à vos clients avec Azure HDInsight. Lisez le guide du développeur et suivez le guide de démarrage rapide pour en savoir plus sur l’implémentation de pipelines d’analyse open source sur Azure HDInsight. Tenez-vous informé des dernières actualités et fonctionnalités d’Azure HDInsight en nous suivant sur Twitter (#HDInsight). Pour poser des questions et formuler des commentaires, veuillez écrire à AskHDInsight@microsoft.com.

À propose d’Azure HDInsight

Azure HDInsight est un service de classe Entreprise pour l’analytique open source, qui permet aux clients d’exécuter facilement des infrastructures open source Apache populaires, telles que Spark, Apache Hadoop, Kafka, etc. Le service est disponible dans 30 régions publiques et les clouds Azure Government aux États-Unis et en Allemagne. Azure HDInsight est utilisé dans des applications stratégiques dans de nombreux secteurs et cas d’usage, de l’ETL (extraction, transformation et chargement) à la diffusion en continu, en passant par l’interrogation interactive.