• 4 min read

Bekanntgabe der allgemeinen Verfügbarkeit von Apache Hadoop 3.0 auf Azure HDInsight

Heute geben wir die allgemeine Verfügbarkeit von Apache Hadoop 3.0 in Azure HDInsight bekannt. Mit dem Kooperationspartner Cloudera ist Microsoft Azure der erste Cloudanbieter, der seinen Kunden die neuesten Innovationen in den beliebtesten Open-Source-Projekten zur Verfügung stellt – mit unübertroffener Skalierbarkeit, Flexibilität und Sicherheit.

BildHeute geben wir die allgemeine Verfügbarkeit von Apache Hadoop 3.0 in Azure HDInsight bekannt. Mit dem Kooperationspartner Cloudera ist Microsoft Azure der erste Cloudanbieter, der seinen Kunden die neuesten Innovationen in den beliebtesten Open-Source-Projekten zur Verfügung stellt – mit unübertroffener Skalierbarkeit, Flexibilität und Sicherheit. Die allgemeine Verfügbarkeit von Apache Hadoop 3.0 in Azure HDInsight baut auf bereits vorhandenen Funktionen auf und führt einige wichtige Verbesserungen zur Erhöhung der Leistung und Sicherheit ein. Darüber hinaus verbessern wir die Unterstützung für das umfassende Ökosystem aus Big Data-Analyseanwendungen.

Apache Hadoop 3.0 und Höchstleistung in der Cloud

Apache Hadoop 3.0 umfasst die wichtigsten Upgrades für wesentliche Apache-Frameworks wie Hive, Spark und HBase, die über die letzten fünf Jahre von der Open Source-Community veröffentlicht wurden. Die neuen Funktionen in Hadoop 3.0 führen zu deutlichen Verbesserungen der Leistung, Skalierbarkeit und Verfügbarkeit und damit zu geringeren Gesamtkosten und einer schnelleren Amortisierung.

  • Apache Hive 3.0: Die aktuellste Version von Hive, bei der ACID-Transaktionen standardmäßig aktiviert sind und die einige Leistungsverbesserungen umfasst, ermöglicht es Entwicklern, Anwendungen mit „traditionellen Datenbanken“ basierend auf enormen Data Lakes zu erstellen. Dies ist besonders für Unternehmen von Bedeutung, die Big Data-Anwendungen erstellen, die mit der DSGVO bzw. mit Privacy- und Datenschutzgesetzen konform sein müssen.
  • Hive-Warehouse-Connector für Apache Spark: Mit dem Hive-Warehouse-Connector werden Spark und Hive enger miteinander verzahnt. Durch den neuen Connector erfolgt die Integration nicht mehr auf Ebene des Metastores sondern auf Ebene der Abfrage-Engine. Dies führt zu einer höheren, zuverlässigeren Leistung mit Prädikatweitergabe und anderen Funktionen.
  • Apache HBase 2.0 und Apache Phoenix 5.0: Apache HBase 2.0 und Apache Phoenix 5.0 umfassen einige Verbesserungen bezüglich Leistung, Stabilität und Integration. Mit HBase 2.0 verbessert die regelmäßige Neuorganisation der Daten im Memstore mit In-Memory-Komprimierung die Leistung, da die Daten nicht zu oft aus dem Remotecloudspeicher geleert oder gelesen werden. Phoenix 5.0 ermöglicht dank eines Abfrageprotokolls eine höhere Transparenz bei Abfragen. Dazu wird eine neue Systemtabelle eingeführt, in der Informationen zu Abfragen erfasst werden, die für den Cluster ausgeführt werden.
  • Spark IO Cache: IO Cache ist ein Dienst zum Zwischenspeichern von Daten für Azure HDInsight, mit dem die Leistung von Apache Spark-Aufträgen verbessert wird. IO Cache funktioniert auch mit Apache TEZ- und Apache Hive-Workloads, die auf Apache Spark-Clustern ausgeführt werden können.

Optimierte Sicherheit auf Unternehmensniveau

Sicherheit und Compliance auf Unternehmensniveau sind wichtige Anforderungen für alle Kunden, die Big Data-Anwendungen erstellen, mit denen vertrauliche Daten in der Cloud gespeichert oder verarbeitet werden.

  • Enterprise-Sicherheitspaket-Unterstützung für Apache HBase: Mit der allgemeinen Verfügbarkeit der Enterprise-Sicherheitspaket-Unterstützung für HBase können Kunden sicherstellen, dass sich ihre Benutzer mit den Anmeldeinformationen ihrer Unternehmensdomäne anmelden. Nach der Authentifizierung gelten für die Benutzer umfassende, detaillierte Zugriffsrichtlinien (die in Apache Ranger erstellt und verwaltet werden können).
  • Bring Your Own Key-Unterstützung für Apache Kafka: Kunden können jetzt ihre eigenen Verschlüsselungsschlüssel im Azure Key Vault zur Verschlüsselung von Azure Managed Disks-Datenträgern verwenden, auf denen Apache Kafka-Meldungen gespeichert werden. So können sie die Sicherheit ihrer Daten genau steuern.

Umfassende Tools für Entwickler

Azure HDInsight bietet umfassende Entwicklungsfunktionen mit verschiedenen IDE-Erweiterungen, Notebooks und SDKs.

  • Allgemein verfügbare SDKs: Mit HDInsight SDKs für .NET, Python und Java können Entwickler Cluster mühelos mit einer Sprache ihrer Wahl verwalten.
  • VSCode: Mit der VSCode-Erweiterung für HDInsight können Entwickler Hive-Batchaufträge, Interactive Hive-Abfragen und PySpark-Skripts an HDInsight 4.0-Cluster übermitteln.
  • IntelliJ: Mit dem Azure-Toolkit für IntelliJ können Scala- und Java-Entwickler Spark-, Scala- und Java-Projekte mit integrierten Vorlagen erstellen. Entwickler können Vorgänge wie das lokale Ausführen, das lokale Debuggen und das Öffnen einer interaktiven Sitzung problemlos durchführen und Scala- bzw. Java-Projekte direkt über die IntelliJ-IDE an HDInsight 4.0-Spark-Cluster übermitteln.

Umfangreiches Anwendungsökosystem

Azure HDInsight unterstützt ein breites Spektrum an Anwendungen. Auf dem Azure Marketplace sind viele beliebte Big Data-Anwendungen verfügbar, die für unterschiedliche Szenarios wie interaktive Analysen oder die Anwendungsmigration eingesetzt werden können. Im Folgenden sind einige unterstützte Anwendungen aufgelistet:

  • Starburst (Presto): Presto ist eine schnelle und skalierbare verteilte Open Source-SQL-Abfrage-Engine, mit der Sie Daten überall in Ihrer Organisation analysieren können. Da Presto für die Trennung der Speicher- und Computekomponenten entwickelt wurde, eignet sich diese Engine zum Abfragen von Daten in Azure Data Lake Storage, Azure Blob Storage, SQL- und NoSQL-Datenbanken und anderen Datenquellen. Weitere Informationen zu Starburst Presto erhalten Sie im Azure Marketplace.
  • Kyligence: Kyligence ist eine OLAP-Engine (OLAP, Online Analytical Processing) für Unternehmen zur Verarbeitung von Big Data, die auf Apache Kylin basiert. Mit Kyligence können Unternehmen interaktive Self-Service-Analysen in Azure durchführen und Billionen von Datensätzen mit einer Latenz im Millisekundenbereich abfragen. Dabei werden vorhandene Hadoop- und BI-Systeme nahtlos integriert. Weitere Informationen zu Kyligence erhalten Sie im Azure Marketplace.
  • WANdisco: WANdisco Fusion senkt das Risiko bei der Migration in die Cloud, indem es reibungslose Datenmigrationen, unkomplizierte und nahtlose Spark- und Hadoop-Bereitstellungen sowie lang- und kurzfristige Hybriddatenvorgänge gewährleistet. Weitere Informationen zu WANdisco erhalten Sie im Azure Marketplace.
  • Unravel Data: Mit Unravel erhalten Sie eine einheitliche Ansicht Ihres gesamten Datenstapels. In dieser Ansicht finden Sie handlungsrelevante Empfehlungen, und Sie können durch Automatisierung die Leistung verbessern, Probleme behandeln und Optimierungen vornehmen. Die Unravel Data-App verwendet den Azure Resource Manager, sodass Kunden Unravel mit nur einem Klick mit einem neuen oder vorhandenen HDInsight-Cluster verknüpfen können. Weitere Informationen zu Unravel erhalten Sie im Azure Marketplace.
  • Waterline Data: Mit dem Waterline Data Catalog und HDInsight können Kunden Ihre Daten mühelos im globalen Umfang von Azure untersuchen, organisieren und verwalten. Weitere Informationen zu Waterline Data erhalten Sie im Azure Marketplace.

Jetzt einsteigen

Wir sind gespannt, welche Innovationen Sie mit Azure HDInsight für Ihre Benutzer und Kunden hervorbringen. Lesen Sie den Entwicklerleitfaden und den Schnellstartleitfaden, um mehr über die Implementierung von Open Source-Analysepipelines in Azure HDInsight zu erfahren. Folgen Sie uns auf Twitter, um immer die neuesten Informationen zu Azure HDInsight und kommenden Features zu erhalten (#AzureHDInsight). Wenden Sie sich bei Fragen und Feedback unter AskHDInsight@microsoft.com an uns.

Informationen zu Azure HDInsight

Azure HDInsight ist ein Dienst für Unternehmen für Open Source-Analysen, der es Kunden ermöglicht, gängige Open Source-basierte Apache-Frameworks wie Apache Hadoop, Spark und Kafka einfach und problemlos auszuführen. Der Dienst ist in 30 öffentlichen Regionen sowie in Azure-Clouds für Behörden in den USA und in Deutschland verfügbar. Azure HDInsight unterstützt unternehmenskritische Anwendungen in einer Vielzahl von Branchen und Anwendungsfällen wie ETL, Streaming und interaktive Abfragen.