Azure HDInsight bringt die nächste Generation von Apache Hadoop 3.0 und Sicherheit für Unternehmen in die Cloud

Veröffentlicht am 24 September, 2018

Principal Group Program Manager, Azure HDInsight

Azure HDInsight-Symbol

MICROSOFT IGNITE, ORLANDO, Florida, 24. September 2018 – Microsoft Corporation gab heute bekannt, Unternehmen weiterhin tatkräftig beim Einsatz von Apache Hadoop für Open Source-basierte Big Data-Analysen in der Cloud zu unterstützen. Den Anfang in der Serie von umfangreichen Upgrades für den Azure HDInsight-Dienst macht die Vorschauversion von Apache Hadoop 3.0 – das transformative Update für den Hadoop-Stapel, auf das Unternehmen seit Anfang des Jahres warten. Möglich gemacht wurde dies durch die beständige Partnerschaft zwischen Hortonworks und Microsoft. Darüber hinaus können Unternehmen mit strengen Sicherheits- und Complianceanforderungen ihre Azure HDInsight-Cluster mit dem Enterprise-Sicherheitspaket schützen. Dieses Release hält für jeden Benutzer Verbesserungen bereit. Spark-Entwickler werden insbesondere die Reihe von Innovationen von Microsoft zu schätzen wissen, mit denen Sie nun rasch Leistungsengpässe in ihrem Code identifizieren und beheben können.

Wir freuen uns, Teil der Open Source-Analysecommunity zu sein“, sagte Ryan Waite, Director of Big Data Product Management. „Wir machen Open Source-Analysen zu einem zentralen Bestandteil unserer Produktstrategie – von unseren Investitionen in HDInsight über unsere Teilnahme an Projekten wie Apache YARN bis hin zu unserer Umstellung zu Open Source-Analysen in unserem internen Data Lake. Die Innovationsrate in diesem Bereich steigt mit Apache Hadoop 3.0 geradezu unaufhörlich. Darum sind wir erfreut, diesen Dienst unseren Kunden zur Verfügung stellen zu können, damit auch sie ihre Big Data-Projekte schneller umsetzen können.

Vorschauversion von Apache Hadoop 3.0 in Azure HDInsight 4.0

Apache Hadoop 3.0, das unter der Leitung von Hortonworks steht, repräsentiert die Arbeit der gesamten Community von mehr als 5 Jahren seit dem letzten großen Update des Hadoop-Stapels. Unternehmen können nun ihre Data-Lake-Vision realisieren und gleichzeitig effizient Deep-Learning-Frameworks in ihre Anwendungen integrieren, und zwar in dem von ihnen bevorzugten Hadoop-Stapel.

Zu den bedeutendsten Verbesserungen zählen Folgende:

  • Mit der standardmäßig aktivierten ACID-Semantik ähnelt Apache Hive 3.0 eher einer konventionellen Datenbank, wodurch Kunden einfacher Branchenanwendungen basierend auf sehr großen Datensets erstellen können.
  • Apache Druid ist ein Open Source-Datenspeicher mit Indizierungs- und Zwischenspeicherungsfunktionen auf Basis einer spaltenorientierten Speicheranordnung. Mit Apache Hive und Apache Druid (ab sofort standardmäßig verfügbar) können Kunden nahezu in Echtzeit explorative Analysen zu eingehenden Daten durchführen.
  • Mit der TensorFlow-Unterstützung (standardmäßig verfügbar) und der GPU-Unterstützung ist Apache Hadoop 3.0 ideal auf Machine Learning- und Deep Learning-Szenarien abgestimmt.

Aufgrund der engen Zusammenarbeit zwischen Microsoft und Hortonworks ist Azure nun der erste große Cloudanbieter, der den verwalteten Apache Hadoop 3.0-Dienst anbietet. Auf diese Weise können Azure-Kunden mit der Erstellung neuer Anwendungen beginnen oder ihre bestehenden Anwendungen aktualisieren, um mit der neuen Apache Hadoop 3.0-Plattform zu arbeiten.

Optimierte Sicherheit auf Unternehmensniveau

Sicherheit und Compliance auf Unternehmensniveau stellen wichtige Anforderungen für alle Kunden dar, die Big Data-Anwendungen erstellen, die wiederum vertrauliche finanz-, geschäfts-, personenbezogene und gesundheitsrelevante Daten in der Cloud speichern oder verarbeiten.

Mit der allgemeinen Verfügbarkeit des Enterprise-Sicherheitspakets (ESP) können Kunden jetzt Folgendes:

  • Sicherstellen, dass Benutzer sich bei ihren HDInsight-Clustern mit ihren unternehmensspezifischen Domänenanmeldeinformationen authentifizieren
  • Sicherstellen, dass Benutzer umfassenden, granularen Zugriffsrichtlinien (die in Apache Ranger erstellt und verwaltet werden) unterliegen, wie in den Richtlinien für den Datenzugriff in Unternehmen festgelegt
  • Sicherstellen, dass Zugriffe auf kritische Daten protokolliert werden und in Apache Ranger zur späteren Überprüfung oder forensischen Analyse zur Verfügung stehen

Darüber hinaus werden Unternehmen, die Apache Kafka verwenden, die Defense in Depth-Maßnahmen zu schätzen wissen, die sie durch die BYOK-Verschlüsselung für Apache Kafka in HDInsight umsetzen können.

Erweiterte Debugtools für HDInsight Spark-Entwickler

Entwickler, Data Scientists und Analysten wissen bereits, dass Azure HDInsight umfangreiche Entwicklungs- und Debugfunktionen in einem Tool ihrer Wahl bietet – sei es IntelliJ, Eclipse, VSCode, Jupyter oder Apache Zeppelin Notebooks.

Microsoft geht nun einen Schritt weiter! Das Debuggen von umfangreichen, verteilten Big Data-Anwendungen, die auf Hunderten von Knoten ausgeführt werden, ist schwierig und zeitaufwendig. Nun schafft Microsoft mit seiner jahrzehntelangen Erfahrung im Ausführen und Debuggen nahezu Milliarden von Arbeitsplätzen in der Open Source-Welt von Apache Spark. Zu den bedeutendsten Verbesserungen zählen Folgende:

  • Auftragsgraphen mit Wiedergabe und Heatmap zur Identifizierung von Lese-/Schreibengpässen
  • Analyse und Visualisierung kritischer Auftragspfade
  • Erkennung und Analyse von Datenschiefe
  • Auftragsspezifische Datenverwaltung einschließlich Datenvorschau, Downloads und Kopien

Verfügbarkeit wichtiger ISV-Anwendungen in Azure HDInsight

Azure HDInsight unterstützt ein dynamisches Anwendungsökosystem mit den beliebtesten Big Data-Anwendungen, die im Azure Marketplace verfügbar sind. Kunden stehen nun drei neue Anwendungen zur Verfügung, die sie mit Azure HDInsight verwenden können und die Schlüsselbereiche wie Data Governance, SQL-freundliche Abfragen über Big Data und Migration von Anwendungen zu Azure abdecken:

  • Starburst: Presto-Connectors in Azure HDInsight skalieren bei Bedarf andere Datenquellen in HDInsight und integrieren diese.
  • Waterline Data: Eine Datenkatalogisierungs- und Governancelösung, die von mehreren Azure-Kunden eingesetzt wird.

Wir freuen uns sehr, Waterline Data Catalog in Microsoft Azure HDInsight zu veröffentlichen, einem wertvollen Analysedienst für Unternehmen, die Daten im Petabytebereich verarbeiten und ihre Datenberge zur deutlich schnelleren und kostengünstigeren Verarbeitung derzeit in die Cloud migrieren“, gab Waterline Data CEO Kailash Ambwani bekannt. „Unser KI-gesteuerter, hochgradig skalierbarer Waterline Data Catalog erweitert die Leistungsfähigkeit von HDInsight, indem die Klassifizierung und Governance von Daten automatisiert werden. So können alle Daten der Organisation schneller gerendert werden, was wiederum schnellere Analysen und umfassendere Einblicke ermöglicht. In Kooperation mit Microsoft unterstützt Waterline Data Organisationen dabei, den Nutzen ihrer Daten zu vergrößern, die eine Vielfalt an Möglichkeiten bieten – von Echtzeit-IoT-Diensten bis hin zu modernsten KI- und Machine Learning-basierten Anwendungen, die umfangreichere Innovationen und eine bessere Wettbewerbsfähigkeit in der heutigen Datenwirtschaft ermöglichen.“

Und das ist nur der Anfang. Es warten noch viele weitere Updates für Azure HDInsight auf Sie. Halten Sie sich auf dem Laufenden.

Jetzt Azure HDInsight testen

Wir sind gespannt, welche Innovationen Sie als Nächstes mit Azure HDInsight entwickeln werden. Lesen Sie diesen Entwicklerleitfaden und den Schnellstartleitfaden, um mehr über die Implementierung von Open Source-Analysepipelines in Azure HDInsight zu erfahren. Informieren Sie sich über die neuesten Features von Azure HDInsight, indem Sie uns auf Twitter unter #HDInsight und @AzureHDInsight folgen. Bei Fragen und Feedback wenden Sie sich unter AskHDInsight@microsoft.com an uns.

Informationen zu Azure HDInsight

Azure HDInsight ist ein einfacher, kostengünstiger unternehmensweiter Dienst für Open Source-Analysen, der es Kunden ermöglicht, gängige Open Source-basierte Apache-Frameworks wie Apache Hadoop, Spark und Kafka problemlos auszuführen. Der Dienst ist in 27 öffentlichen Regionen verfügbar, während Azure-Clouds für Behörden in den USA und in Deutschland zur Verfügung stehen.

Azure HDInsight unterstützt unternehmenskritische Anwendungen in einer Vielzahl von Branchen und ermöglicht eine Vielzahl von Anwendungsfällen wie ETL, Streaming und interaktive Abfragen.