Bearbeiten

Data Warehouse für Unternehmen

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Lösungsmöglichkeiten

Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.

In diesem Artikel wird eine Lösung für ein Enterprise Data Warehouse in Azure vorgestellt, die:

  • Alle Ihre Daten zusammenführt, unabhängig von Größe und Format.
  • All Ihren Benutzern eine Möglichkeit bietet, über analytische Dashboards, operative Berichte und erweiterte Analysen Einblicke in Ihre Daten zu erhalten.

Apache® und Apache Spark sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Aufbau

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Azure Synapse Analytics-Pipelines führen strukturierte, unstrukturierte und teilweise strukturierte Daten wie Protokolle, Dateien und Medien zusammen. Die Pipelines speichern die Daten in Azure Data Lake Storage.
  2. Apache Spark-Pools in Azure Synapse Analytics bereinigen und transformieren die Data Lake Storage-Daten.
  3. Azure Synapse Analytics kombiniert die verarbeiteten Daten mit vorhandenen strukturierten Daten und schafft so einen einheitlicher Datahub.
  4. Ein dedizierter SQL-Pool stellt die Daten für operative Berichte und analytische Dashboards zur Verfügung, die Erkenntnisse ableiten. Azure Analysis Services stellt die Berichte und Dashboards Tausenden von Endbenutzern zur Verfügung.

Komponenten

  • Azure Synapse Analytics ist ein Analysedienst für Data Warehouses und Big-Data-Systeme. Dieses Tool verwendet eine Architektur für die massiv Parallelverarbeitung und ist tiefe in die Azure-Dienste integriert.
  • Azure Synapse Analytics-Pipelines bieten Ihnen eine Möglichkeit zum Erstellen, Planen und Orchestrieren von Workflows, z. B. Extrahieren, Laden, Transformieren (ELT)- und Extrahieren, Transformieren, Laden (ETL)-Workflows.
  • Azure Blob Storage bietet einen hochgradig skalierbaren, kostengünstigen Objektspeicher für alle Arten von unstrukturierten Daten – Bilder, Videos, Audiodateien, Dokumente und mehr.
  • Data Lake Storage ist ein Repository zur Speicherung großer Datenmengen in ihrem nativen Rohformat. Azure Data Lake Storage baut auf Blob Storage auf. Daher bietet Data Lake Storage die Skalierbarkeits-, mehrstufigen Speicher-, Hochverfügbarkeits- und Notfallwiederherstellungsfunktionen von Blob Storage.
  • Spark-Pools in Azure Synapse Analytics bieten ein Framework für die Parallelverarbeitung, das In-Memory-Verarbeitung unterstützt, um die Leistung von Big Data-Analyseanwendungen zu steigern.
  • Analysis Services ist eine Analyse-Engine auf Unternehmensniveau, die Benutzern eine einfache Möglichkeit zur Durchführung von Ad-hoc-Datenanalysen bietet. Sie können Analysis Services verwenden, um Geschäftslösungen im großen Stil zu steuern, zu testen und bereitzustellen.
  • Power BI ist eine Suite von Business Analytics-Tools, die für Ihre gesamte Organisation Erkenntnisse bereitstellen. Mithilfe von Power BI können Sie eine Verbindung mit Hunderten von Datenquellen herstellen, die Datenvorbereitung vereinfachen und Ad-hoc-Analysen steuern. Sie können auch hochwertige Berichte erzeugen und diese für Ihre Organisation zur Nutzung im Web und auf mobilen Geräten veröffentlichen.

Szenariodetails

Ein Enterprise Data Warehouse vereint alle Ihre Daten, unabhängig von Quelle, Format oder Größe. Ein Data Warehouse bietet ihnen auch eine Möglichkeit, leistungsstarke Analysen Ihrer Daten durchzuführen, sodass Sie mithilfe analytischer Dashboards, operativer Berichte und erweiterter Analysen Erkenntnisse gewinnen können.

Mit dieser Lösung wird ein Data Warehouse eingerichtet, das:

  • Eine einzige Quelle der Wahrheit für Ihre Daten darstellt.
  • Relationale Datenquellen in andere unstrukturierte Datensätze integriert.
  • Semantische Modellierungs- und leistungsstarke Visualisierungstools für eine einfachere Datenanalyse nutzt.

Um Daten in eine einheitliche Plattform zu integrieren, verwendet diese Lösung Azure Synapse Analytics-Pipelines. Diese Pipelines bieten ELT- und ETL-Funktionen. Sie können die Pipelines insbesondere zum Verschieben von Daten in datengesteuerten Workflows verwenden. Die Pipelines arbeiten mit verschiedenen Datenformaten und -strukturen.

Die Pipelines speichern die Daten in Data Lake Storage, das auf Blob Storage basiert. Dieser Speicherdienst kann große Mengen unstrukturierter Daten verarbeiten.

Die Spark-Pools in Azure Synapse Analytics sind ein wichtiger Bestandteil der Lösung. Diese Pools bereinigen und transformieren Daten, die in Azure gespeichert sind. Das Parallelverarbeitungsframework unterstützt die In-Memory-Verarbeitung und sorgt so für Geschwindigkeit und Effizienz. Die Pools unterstützen auch die automatische Skalierung, sodass sie Knoten bei Bedarf hinzufügen oder entfernen können.

Ein dedizierter SQL-Pool stellt die verarbeiteten Daten für hochleistungsfähige Analysen zur Verfügung. Dieser Pool speichert Daten in relationalen Tabellen mit spaltenweiser Speicherung, einem Format, das die Kosten für die Datenspeicherung erheblich reduziert. Außerdem wird die Abfrageleistung verbessert, sodass Sie Analysen im großen Stil ausführen können.

Mögliche Anwendungsfälle

Sie können diese Lösung in Szenarien wie den folgenden verwenden, die große Datenmengen umfassen:

  • Integration von IoT-Geräten
  • Kundendatenplattformen
  • Verarbeitung natürlicher Sprache
  • Machine Learning-Algorithmen

Preise

Eine Einschätzung der Kosten für diese Lösung finden Sie in einem Preisbeispiel im Preisrechner.

Nächste Schritte