Navigation überspringen

Einzeln gut, gemeinsam unschlagbar: Updates in drei Azure-Datendiensten

Veröffentlicht am 7 Februar, 2019

Director of Product Management, Azure Engineering

Wie Julia White bereits in Ihrem Blogbeitrag geschrieben hat, freuen wir uns heute, die allgemeine Verfügbarkeit von Azure Data Lake Storage Gen2 und Azure Data Explorer bekanntgeben zu können. Außerdem wurde die Vorschau von Azure Data Factory Mapping Data Flow (Mappingdatenfluss) angekündigt. So bleibt Azure weiterhin die beste Cloudplattform für Analysen mit unübertroffenem Preis-Leistungs-Verhältnis und unvergleichlicher Sicherheit. In diesem Blogbeitrag werden die technischen Möglichkeiten dieser neuen Features vorgestellt.

Azure Data Lake Storage: ein Data Lake ohne Kompromisse

Azure Data Lake Storage (ADLS) vereint die Skalierbarkeit, die Kosteneffizienz, das Sicherheitsmodell und die umfassenden Funktionen von Azure Blob Storage mit einem leistungsstarken Dateisystem, das sich hervorragend für Analysen eignet und mit dem Hadoop Distributed File System kompatibel ist. Keine Kompromisse: Kunden müssen sich nicht mehr zwischen Kosteneffizienz und Leistung entscheiden, wenn Sie einen Cloud-Data Lake auswählen.

Es war uns sehr wichtig, dass ADLS mit dem Apache-Ökosystem kompatibel ist. Zu diesem Zweck haben wir einen ABFS-Treiber (Azure Blob File System, Azure-Blob-Dateisystem) entwickelt. Der ABFS-Treiber ist offiziell Teil von Apache Hadoop und Apache Spark und ist in viele kommerzielle Distributionen integriert. Er definiert ein URI-Schema, mit dem direkt auf Dateien und Ordner verwiesen werden kann:

abfs[s]://dateisystem@kontoname.dfs.core.windows.net/<pfad>/<pfad>/<dateiname>

Beachten Sie dabei, dass die Dateisystemsemantik serverseitig implementiert wird. Durch diesen Ansatz sind keine komplexen clientseitigen Treiber mehr erforderlich, und es wird sichergestellt, dass Dateisystemtransaktionen sehr genau sind.

Die Analyseleistung wurde durch die Implementierung eines hierarchischen Namespace (HNS) erhöht, der atomische Datei- und Ordnervorgänge unterstützt. Das ist essentiell, weil so der Aufwand bei der Verarbeitung von Big Data in Blob Storage minimiert wird. Der zeitliche Aufwand für das Ausführen von Auftragen wird reduziert und die Kosten werden gesenkt, weil weniger Computevorgänge erforderlich sind.

Der ABFS-Treiber und der HNS wirken sich deutlich positiv auf die Leistung von ADLS aus, da sie Engpässe bei der Skalierung und Leistung vermeiden.  Sie können von dieser verbesserten Leistung jetzt zu den gleichen Kosten wie für Azure Blob Storage profitieren.

ADLS umfasst dieselben leistungsstarken Datensicherheitsfunktionen wie Azure Blob Storage, u.a. die folgenden:

  • Verschlüsselung von Daten bei der Übertragung und im ruhenden Zustand mit TLS 1.2
  • Firewalls für das Speicherkonto
  • Integration in ein virtuelles Netzwerk
  • Rollenbasierte Zugriffssicherheit

Darüber hinaus unterstützt das Dateisystem von ADL POSIX-konforme Zugriffssteuerungslisten. Mit diesem Ansatz können Sie Ressourcen engmaschig schützen und den Zugriff auf autorisierte Benutzer, Gruppen und Dienstprinzipale einschränken.

Azure Data Lake Storage-Diagramm

ADLS ist eng mit Azure Databricks, Azure HDInsight, Azure Data Factory, Azure SQL Data Warehouse und Power BI verzahnt und ermöglicht so einen durchgehenden Analyseworkflow, der Ihnen handlungsrelevante Unternehmenserkenntnisse für alle Bereiche Ihrer Organisation liefert. Des Weiteren wird ADLS von einem globalen Netzwerk an unabhängigen Softwareherstellern für Big Data-Analysesysteme und von Systemintegratoren unterstützt, u.a. von Cloudera und Hortonworks.

Nächste Schritte

Azure Data Explorer: Schneller und hoch skalierbarer Datenanalysedienst

Azure Data Explorer (ADX) ist ein schneller, vollständig verwalteter Datenanalysedienst für Echtzeitanalysen großer Mengen an Streamingdaten. ADX kann eine Milliarde Datensätze in weniger als einer Sekunde abfragen, ohne dass die Daten oder Metadaten angepasst werden müssen. Der Dienst umfasst zudem native Connectors für Azure Data Lake Storage, Azure SQL Data Warehouse und Power BI und setzt eine intuitive Abfragesprache ein, mit deren Hilfe Kunden innerhalb weniger Minuten wichtige Erkenntnisse gewinnen können.

Bei der Entwicklung von ADX wurde besonderer Wert auf Geschwindigkeit und Einfachheit gelegt. Der Dienst besteht aus zwei unterschiedlichen Diensten, die zusammenarbeiten: aus dem Engine- und dem Datenverwaltungsdienst. Beide Dienste werden als Cluster auf Computeknoten (VMs) in Azure bereitgestellt.

Azure Data Explorer-Diagramm

Der Datenverwaltungsdienst erfasst unterschiedliche Arten von Rohdaten und kümmert sich um etwaige Fehler, Rückstaus und die Datenbereinigung. Der Datenverwaltungsdienst ermöglicht ferner eine schnelle Datenerfassung durch eine einzigartige Kombination aus automatischer Indizierung und Komprimierung.

Der Engine-Dienst ist für die Verarbeitung eingehender Rohdaten und das Behandeln von Benutzerabfragen zuständig. Der Dienst setzt eine Kombination aus automatischer Skalierung und Datensharding ein, um eine hohe Geschwindigkeit und Skalierung zu ermöglichen. Die schreibgeschützte Abfragesprache ist so konzipiert, dass das Lesen, Schreiben und Automatisieren der Syntax so unkompliziert wie möglich ist. Die Sprache ermöglicht einen einfachen Übergang von einzeiligen Abfragen zu komplexen Datenverarbeitungsskripts. So werden Abfragen immer maximal effizient ausgeführt.

ADX ist in 41 Azure-Regionen verfügbar und wird von einem stetig wachsenden Ökosystem an Partnern unterstützt, u.a. von unabhängigen Softwareherstellern und Systemintegratoren.

Nächste Schritte

Azure Data Factory Mapping Data Flow: Visuelles Feature für die Datentransformation ohne eine einzige Codezeile

Azure Data Factory (ADF) ist ein hybrider, cloudbasierter Datenintegrationsdienst zum Orchestrieren und Automatisieren der Datenverschiebung und -transformation. ADF umfasst über 80 integrierte Connectors für strukturierte, teilweise strukturierte und nicht strukturierte Datenquellen.

Mit dem Mapping Date Flow (Mappingdatenfluss) in ADF können Kunden Datentranformationen visuell entwerfen, umsetzen und verwalten, ohne sich mit Spark vertraut machen zu müssen und ohne tiefgehende Kenntnisse ihrer verteilten Infrastruktur zu haben.

Azure Data Factory-Mappingdatenfluss

Der Mapping Data Flow (Mappingdatenfluss) vereint eine umfangreiche Ausdruckssprache mit einem interaktiven Debugger, um so ETL-Aufträge und Datenintegrationen mühelos ausführen, auslösen und überwachen zu können.

Azure Data Factory ist aktuell in 21 Azure-Regionen verfügbar (weitere Regionen sollen hinzugefügt werden) und wird von einem weitreichenden Ökosystem an Partnern unterstützt, u.a. von unabhängigen Softwareherstellern und Systemintegratoren.

Nächste Schritte

Analysen in Azure – unübertroffen

Mit den heute bekanntgegebenen technischen Verbesserungen bleibt Azure weiterhin die beste Cloudplattform für Analysen. Erfahren Sie, weshalb die Analysen in Azure unübertroffen sind.