Im Hintergrund: Leistung, Skalierung, Sicherheit bei Cloudanalysen mit ADLS Gen2

Veröffentlicht am 14 Februar, 2019

Program Manager, Azure Storage

Am 7. Februar 2019 haben wir die allgemeine Verfügbarkeit von Azure Data Lake Storage (ADLS) Gen2 bekannt gegeben. Azure ist derzeit der einzige Cloudanbieter, der eine Cloudspeicherlösung ohne Kompromisse anbietet, die schnell, sicher, umfassend skalierbar und kostengünstig ist und darüber hinaus auch die anspruchsvollsten Produktionsworkloads ausführen kann. In diesem Blogbeitrag werfen wir einen genaueren Blick auf die technischen Grundlagen von ADLS, mit denen die von unseren Kunden geforderten umfassenden Analyseszenarien erst möglich gemacht werden.

ADLS ist der einzige Cloudspeicherdienst, der speziell für Big Data-Analysen entworfen wurde. Er ist dafür ausgelegt, in eine Vielzahl von Analyseframeworks integriert zu werden und damit Data Lakes auf Unternehmensniveau zu ermöglichen. Er trägt über echte Semantik auf Dateisystemebene zur Leistungsmaximierung bei, kann entsprechend den Anforderungen auch der anspruchsvollsten Analyseworkloads skaliert werden, wird zu den Preisen für Cloudobjektspeicher abgerechnet und unterstützt durch seine Flexibilität unterschiedlichste Workloads, sodass Sie für Ihre Daten keine Silos erstellen müssen.

Ein Eckpfeiler der Plattform

Die Azure-Analyseplattform bietet nicht nur einen großen Data Lake für die Speicherung Ihrer Daten für ADLS, sondern darüber hinaus noch eine Vielzahl weiterer Dienste sowie ein aktives Ökosystem für Ihre umfassenden Analysepipelines.

Zu Azure gehören Dienste wie HDInsight und Azure Databricks für die Datenverarbeitung, Azure Data Factory für die Erfassung und Orchestrierung sowie Azure SQL Data Warehouse, Azure Analysis Services und Power BI für das Verbrauchen Ihrer Daten in einem als modernes Data Warehouse bezeichneten Muster. All diese Dienste ermöglichen Ihnen, Ihren Unternehmens-Data Lake optimal zu nutzen.

Vollständige Analyseplattform

Darüber hinaus ist ADLS mit einem kompletten Ökosystem beliebter Analysetools und -frameworks integriert, sodass Sie genau die passende Lösung für Ihre Anforderungen erstellen können.

„Datenverwaltung und Data Governance stehen bei Kunden, die Cloudanalyselösungen implementierenn an erster Stelle. Das Team von Azure Data Lake Storage Gen2 ist ein fantastischer Partner bei unserer engen Integration und bietet die beste Erfahrung für unsere Kunden, die ADLS Gen2 einsetzen.“

– Ronen Schwartz, Senior Vice President und General Manager of Data Integration and Cloud Integration, Informatica

„Die Datenreplikationstechnologie Fusion von WANdisco stellt in Kombination mit Azure Data Lake Storage Gen2 eine herausragende LiveData-Lösung für unsere Kunden bei Hybridanalysen dar. Sie ermöglicht den einfachen Zugriff auf Azure Data Services ohne Ausfallzeiten oder Unterbrechungen bei lokalen Vorgängen.“

– David Richards, Co-Founder und CEO, WANdisco

„Microsoft ist weiterhin treibende Innovationskraft mit einer skalierbaren und sicheren Infrastruktur, die Hand in Hand geht mit den Lösungen von Cloudera für eine Datencloud für Unternehmen. Wir freuen uns sehr darüber, dass Azure Data Lake Storage Gen2 jetzt weltweit eingeführt wird. Unsere gemeinsamen Kunden kommen so in den Genuss einer einfachen Verwaltung dieser Speicheroption in Kombination mit unserer Analyseplattform.“

– Vikram Makhija, General Manager for Cloud, Cloudera

Leistung

Leistung ist die Haupttriebfeder bei Big Data-Analyseworkloads. Der Grund hierfür ist einfach: Je mehr Leistung die Speicherebene bietet, desto weniger Rechenleistung (der teure Aspekt!) ist erforderlich, um Ihre Daten in Werte umzusetzen. Sie erhalten also nicht nur einen Wettbewerbsvorteil durch schnellere Erkenntnisse, sondern sparen auch noch erhebliche Kosten.

„Bei Tests eines unserer Workflows für die Marktrisikoanalyse haben wir bei Zurich Investment Management mit Azure Data Lake Storage Gen2 eine Leistungssteigerung von 40 % messen können – und das bei einem signifikant niedrigeren Speicheraufwand.“

– Valerio Bürker, Program Manager Investment Information Solutions, Zurich Insurance

Sehen wir uns einmal an, wie ADLS eine außergewöhnliche Leistung erreicht. Das hervorstechende Feature ist der hierarchische Namespace (HNS), der diesem umfassend skalierbaren Speicherdienst ermöglicht, Ihre Daten wie ein Dateisystem mit einer Verzeichnishierarchie anzuordnen. Alle Analyseframeworks (z.B. Spark, Hive usw.) gehen implizit davon aus, dass der zugrunde liegende Speicherdienst ein hierarchisches Dateisystem ist. Dies ist besonders dann offensichtlich, wenn Daten in temporäre Verzeichnisse geschrieben werden, die nach Abschluss des Auftrags umbenannt werden. Bei herkömmlichen cloudbasierten Objektspeichern ist dies ein Vorgang mit O(n)-Komplexität (n Kopier- und Löschvorgänge) und somit erheblichen Auswirkungen auf die Leistung. In ADLS stellt diese Umbenennung einen einfachen atomischen Metadatenvorgang dar.

Azure Data Lake Storage-Diagramm

Ein weiterer wichtiger Aspekt im Hinblick auf die Leistung ist der Azure-Blobdateisystemtreiber (ABFS). Dieser Treiber nutzt die Tatsache, dass der ADLS-Endpunkt für Big Data-Analyseworkloads optimiert ist. Diese Workloads maximieren den Durchsatz über umfangreiche E/A-Vorgänge, im Gegensatz zu anderen universellen Cloudspeicher, die für sehr viele verschiedene E/A-Vorgänge ausgelegt sein müssen. Dieser Optimierungsgrad verbessert die E/A-Leistung so stark, dass dies direkte positive Auswirkungen auf die Leistung und die Kosten für die Ausführung von Big Data-Analyseworkloads in Azure hat. Der ABFS-Treiber wird als Teil von Apache Hadoop® bereitgestellt und ist in HDInsight und Azure Databricks sowie einigen anderen kommerziellen Hadoop-Distributionen verfügbar.

Skalierbar

Skalierbarkeit ist bei Big Data-Analysen enorm wichtig. Es ergibt wenig Sinn, wenn eine Lösung bei wenigen TB an Daten hervorragend funktioniert, aber bei mehr Daten einfach einbricht. Die Geschwindigkeit, mit der Analyseprojekte für Big Data wachsen, ist meist nicht linear, da immer unterschiedlichere Datenquellen zugänglich werden. Die meisten Projekte profitieren von dem Prinzip, dass mehr Daten auch bessere Erkenntnisse bedeuten. Dies führt jedoch zu großen Herausforderungen bei der Entwicklung, da das System z.B. mit derselben Geschwindigkeit skaliert werden muss, in der die Daten zunehmen. Einer der großen Designvorteile von Big Data-Analyseframeworks wie Hadoop und Spark ist, dass sie horizontal skaliert werden. Das bedeutet, dass Sie bei steigender Daten- und/oder Verarbeitungsmenge Ihrem Cluster einfach weitere Knoten hinzufügen und die Verarbeitung unverändert fortgesetzt wird. Dieser Ansatz setzt jedoch voraus, dass die Speicherebene ebenso linear skaliert werden kann.

Hier zeigt sich, dass es für ADLS von großem Vorteil ist, dass es auf dem Azure Blob-Dienst aufbaut. Dieser Dienst skaliert im Exabytebereich und ist nun auch für ADLS verfügbar. Damit sind der Datenmenge bei der Speicherung und dem Zugriff keine Grenzen mehr gesetzt. In der Praxis können die Kunden Hunderte Petabyte an Daten speichern, auf die mit Durchsätzen zugegriffen werden kann, die auch für anspruchsvollste Workloads geeignet sind.

Diagramm der ADLS Gen2-Architektur

Sicher

Kunden, die einen Data Lake für das gesamte Unternehmen erstellen möchten, müssen beim Thema Sicherheit besonders viel beachten. Es müssen mehrere Aspekte berücksichtigt werden, um eine umfassende Sicherheit für Ihren Data Lake sicherzustellen:

Die nahtlose Integration in Analyseframeworks sorgt für eine umfassend geschützte Pipeline. Das HDInsight-Enterprise-Sicherheitspaket erweitert die Endbenutzerauthentifizierung vom Cluster auf die Daten im Data Lake.

Starten Sie noch heute!

Wir würden uns freuen, wenn Sie Azure Data Lake Storage testen würden! Machen Sie sich noch heute damit vertraut, und teilen Sie uns Ihr Feedback mit.