Trace Id is missing
Zum Hauptinhalt wechseln
Vier Personen sitzen sich gegenüber und führen ein Gespräch, während auf den Laptops eine Präsentation zu sehen ist.

Was ist ein Data Warehouse?

Erfahren Sie, was ein Data Warehouse ist, welche Vorteile die Verwendung eines Data Warehouse bietet, welche Best Practices in der Entwurfsphase zu beachten sind und welche Tools für die Erstellung verwendet werden sollten.

Was ist ein Data Warehouse?

Zunächst definieren wir, was ein Data Warehouse ist und warum Sie ein Data Warehouse für Ihr Unternehmen nutzen sollten.

Ein Data Warehouse ist ein zentrales Repository, in dem strukturierte Daten (Datenbanktabellen, Excel-Tabellen) und semistrukturierte Daten (XML-Dateien, Webseiten) zum Zweck der Berichterstellung und Analyse gespeichert sind. Die Daten stammen aus einer Vielzahl von Quellen, z. B. aus Point-of-Sale-Systemen, Geschäftsanwendungen und relationalen Datenbanken, und werden in der Regel bereinigt und standardisiert, bevor sie im Warehouse gespeichert werden. Da in einem Data Warehouse große Mengen an Informationen gespeichert werden können, bietet es Benutzern einen einfachen Zugriff auf eine Fülle von Verlaufsdaten, die für Data Mining, Datenvisualisierungen und andere Formen von Business Intelligence-Berichten verwendet werden können.

Zwei Personen überprüfen Berichtsdaten in einer Tabelle.

Vorteile eines Data Warehouse

Zuverlässige Daten, insbesondere wenn sie im Laufe der Zeit gesammelt werden, helfen Benutzern, intelligentere und fundiertere Entscheidungen über die Art und Weise zu treffen, wie sie ihr Unternehmen führen. Data Warehouses machen dies möglich. Der Nutzen von Data Warehousing für Unternehmen ist vielfältig, hier aber einige der wichtigsten Vorteile:

Data Warehouse und Data Lake im Vergleich

Es liegt auf der Hand, dass Data Warehouses für die Analysevorgänge eines jeden Unternehmens unerlässlich sind. Aber worin liegt der Unterschied zwischen einem Data Warehouse und anderen Arten von Datenrepositorys, z. B. Data Lakes? Und wann sollte das eine dem anderen vorgezogen werden?

Als Repositorys werden in Data Warehouses und Data Lakes Daten gespeichert und verarbeitet. Auch wenn sie scheinbar dieselben Funktionen bieten, eignen sie sich doch jeweils für unterschiedliche Anwendungsfälle. Aus diesem Grund kombinieren Unternehmen häufig beide Systeme zu einer vollständigen End-to-End-Lösung, die für eine Vielzahl von Zwecken eingesetzt werden kann.

Ein Data Warehouse ist von Natur aus relational. Das bedeutet, dass die Struktur oder das Schema der Daten durch vordefinierte Geschäfts- und Produktanforderungen bestimmt wird, die für SQL-Abfragevorgänge zusammengestellt, angepasst und optimiert werden. Daher eignen sich Data Warehouses am besten für die Speicherung von Daten, die für einen bestimmten Zweck aufbereitet wurden, z. B. für das Data Mining für BI-Analysen oder für die Beschaffung von Daten für einen bereits identifizierten geschäftlichen Anwendungsfall.

Genauso wie Data Warehouses enthalten Data Lakes strukturierte und semistrukturierte Daten. Sie sind jedoch auch in der Lage, rohe und unverarbeitete Daten aus einer Vielzahl nicht relationaler Quellen zu verarbeiten, darunter mobile Apps, IoT-Geräte, soziale Medien oder Streamingdatenquellen. Dies liegt daran, dass die Struktur oder das Schema in einem Data Lake erst definiert wird, wenn die Daten gelesen werden. Aufgrund ihrer Flexibilität und Skalierbarkeit werden Data Lakes häufig für intelligente Datenanalysen wie Machine Learning verwendet.

unternehmensweiter Supportplan
Data Lake Data Warehouse
Typ

Strukturiert, semistrukturiert, unstrukturiert
Relational, nicht relational

Strukturiert
Relational

Schema

Schema beim Lesen

Schema beim Schreiben

Format

Roh, ungefiltert

Verarbeitet, überprüft

Quellen

Big Data, IoT, soziale Medien, Streamingdaten

Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung

Skalierbarkeit

Einfache, kostengünstige Skalierung

Schwierig und kostenaufwendig zu skalieren

Benutzer

Wissenschaftliche, technische Fachkräfte für Daten

Data Warehouse-Experten, Business Analysts

Anwendungsfälle

Machine Learning, Predictive Analytics, Echtzeitanalyse

Zentrale Berichterstattung, BI

Eine Person sitzt auf einem Stuhl und arbeitet am Schreibtisch.

Data Warehouse-Architektur und -Design

Nachdem Sie nun wissen, warum und wann Sie ein Data Warehouse verwenden sollten, sehen wir uns das Design an, um zu erfahren, wie ein Data Warehouse funktioniert. Ein Data Warehouse ist mehr als nur ein einzelnes Silo, das eigenständig betrieben wird. Stattdessen handelt es sich um ein hochgradig strukturiertes, sorgfältig entworfenes System mit mehreren Ebenen, die auf unterschiedliche Weise mit Ihren Daten – und miteinander – interagieren. Zu den Ebenen gehören in der Regel:

Untere Ebene

Daten werden aus mehreren Quellen erfasst und dann bereinigt und transformiert, damit sie von anderen Anwendungen in einem ETL-Prozess (Extrahieren, Transformieren und Laden) verwendet werden können. Ebenfalls auf der unteren Ebene werden Daten gespeichert und optimiert, was zu schnelleren Abfragezeiten und einer besseren Gesamtleistung führt.

Mittlere Ebene

Hier befindet sich die Analyse-Engine, die auch als OLAP-Server (Online Analytical Processing, analytische Onlineverarbeitung) bezeichnet wird. OLAP-Server greifen mit hoher Geschwindigkeit auf große Datenmengen im Data Warehouse zu, was zu blitzschnellen Ergebnissen führt.

Obere Ebene

Auf der oberen Ebene werden die verarbeiteten Daten in einer Front-End-Oberfläche visuell dargestellt. Dort können die Daten von Analysten für beliebige Berichterstellungs- und Self-Service-BI-Anforderungen abgerufen und genutzt werden.

Erstellen eines Data Warehouse

Bei der Konzeption und Erstellung eines Data Warehouse ist es wichtig, die langfristigen und Ad-hoc-Ziele Ihres Unternehmens sowie die Art Ihrer Daten im Blick zu behalten. Wie viele Datenquellen sollen integriert werden? Sollen Ihre Workflows automatisiert werden? Wie untersuchen und analysieren Sie Ihre Daten? Ihr Konzept richtet sich natürlich nach der Komplexität Ihrer Anforderungen. Allerdings umfasst ein typisches Database Warehouse für Unternehmen normalerweise die folgenden Komponenten:

  1. Datenquellen , die operative Daten aus Point-of-Sale-Systemen, Geschäftsanwendungen und anderen relationalen Datenbanken extrahieren
  2. Ein Stagingbereich , in dem Daten für das Warehouse oder zentrale Repository bereinigt und transformiert werden
  3. Ein Warehouse oder zentrales Repository, in dem verarbeitete operative Daten, Metadaten, Zusammenfassungsdaten und Rohdaten für den einfachen Benutzerzugriff gespeichert werden
  4. Zusätzliche Data Marts, durch die Daten aus dem zentralen Repository abgerufen und für ausgewählte Benutzergruppen in Teilmengen bereitgestellt werden
  5. Eine Sandbox, die wissenschaftliche Fachkräfte für Daten verwenden können, um neue Formen der Datenuntersuchung in einer geschützten Umgebung zu testen
  6. Eine Vielzahl von Data Warehousing-Tools, -Frameworks und -APIs für die Integration, Speicherung, Leistung und Analyse
Eine Person analysiert Diagramme auf dem Laptop und Datenberichte auf zwei Monitoren.
Laptopbildschirm mit geöffneten Diagrammen

Data Warehouse-Tools, -Software und -Ressourcen

In der heutigen datenorientierten Welt bieten viele große Softwareunternehmen eine scheinbar endlose Palette an Data Warehouse-Software an, jede mit ihrem eigenen spezifischen Anwendungsfall. Es kann eine Herausforderung sein, aber um eine kohärente, leistungsstarke Lösung zu entwickeln, sollten Sie in die richtigen Tools und Technologien investieren. Die Bedürfnisse jedes Unternehmens sind unterschiedlich, aber hier sind einige wichtige Data Warehouse-Produkte, die Sie sich ansehen sollten:

Data Warehousing in Clouds und Hybrid Clouds

Eine einheitliche, cloudbasierte Data Warehousing-Lösung, z. B. Azure Synapse Analytics, bietet Unternehmen die Möglichkeit, schneller und kostengünstiger zu skalieren, zu speichern und Computeressourcen zu nutzen.

Datenintegrationstools

ETL-Pipelines ermöglichen Benutzern das Erstellen, Planen und Orchestrieren ihrer Workflows, sodass Quelldaten automatisch integriert, bereinigt und standardisiert werden.

Objektspeicher

Eine Objektspeicherlösung kann große Mengen strukturierter, semistrukturierter und unstrukturierter Daten enthalten, wodurch sie perfekt für das Staging von Quelldaten geeignet ist, bevor sie in das Warehouse geladen werden.

Warehousingtools

Eine verteilte Speicherlösung enthält große Datasets in relationalen Tabellen mit spaltenbasiertem Speicher. So lassen sich erheblich die Kosten senken, die Abfrageleistung verbessern und schneller Erkenntnisse gewinnen.

Leistungstools

Um die Leistung Ihrer Anwendungen zu steigern, können Sie Apache Spark einbinden, ein Open-Source-Framework für die Parallelverarbeitung, das die In-Memory-Verarbeitung unterstützt.

Ressourcen- und Workloadverwaltung

Ein Ressourcen-Manager weist Ihren Workloads Computingleistung zu, sodass Sie Daten entsprechend laden, analysieren, verwalten und exportieren können.

Datenmodellierung

Die Datenmodellierung kombiniert mehrere Datenquellen in einem einzelnen semantischen Modell und bietet eine strukturierte, optimierte Sicht auf Ihre Daten.

Business Intelligence-Tools

Mithilfe von Business Analytics-Tools gewinnen Benutzer Erkenntnisse aus Daten, die in Dashboards, Berichten und anderen Visualisierungstools aufbereitet wurden.

Sicherheits- und Datenschutzfunktionen

Sicherheits- und Compliancefunktionen wie Datenverschlüsselung, Benutzerauthentifizierung und Zugriffsüberwachung sorgen dafür, dass Ihre Daten geschützt bleiben.

Zwei Personen im Gespräch, die Person rechts hält einen Laptop.

Was ist mit Azure SQL Data Warehouse geschehen?

Die Funktionen von Azure SQL Data Warehouse sind jetzt Bestandteil von Azure Synapse Analytics und werden als dedizierter SQL-Pool bezeichnet. Bestehende Azure SQL Data Warehouse-Kunden können ihre vorhandenen Azure SQL Data Warehouse-Workloads mithilfe der Funktion „Dedizierter SQL-Pool“ in Azure Synapse Analytics weiter ausführen, ohne Änderungen vornehmen zu müssen. Kunden können auch dazu übergehen, ihre vorhandenen Warehouse-Daten mit Azure Synapse Analytics zu verwalten, um die Vorteile fortschrittlicher Analysefunktionen wie serverlose Data Lake-Exploration und integrierte SQL- und Apache Spark™-Engines zu nutzen.

Häufig gestellte Fragen

  • Ein Data Warehouse ist ein zentrales Repository, das strukturierte Daten (Datenbanktabellen, Excel-Tabellen) und semistrukturierte Daten (XML-Dateien, Webseiten) zum Zweck der Berichterstellung, Analyse und anderer Formen von Business Intelligence enthält.

  • Die Verwendung eines Data Warehouse bietet viele Vorteile. Beispielsweise konsolidiert ein Data Warehouse mehrere Datenquellen in einer zentralen zuverlässigen Informationsquelle (SSOT), mit deren Hilfe Unternehmen fundiertere Entscheidungen zu Geschäfts- und Betriebsabläufen treffen können.

  • In Data Warehouses werden strukturierte und semistrukturierte Daten gespeichert, die für das Data Mining von Quelldaten, für Datenvisualisierungen und für andere spezifische BI-Anwendungsfälle verwendet werden können. In Data Lakes werden verschiedene Arten von Rohdaten gespeichert, die wissenschaftliche Fachkräfte für Daten als Quelle für eine Vielzahl von Projekten verwenden können.

  • Ein Data Warehouse besteht in der Regel aus mehreren Ebenen: der unteren Ebene, auf der Daten gesammelt und gespeichert werden, der mittleren Ebene, auf der Daten analysiert werden, und der oberen Ebene, auf der Daten angezeigt werden, auf die Benutzer zugreifen und Datenanalysen ausführen können.

  • Beim Konzipieren und Entwickeln der Data Warehouse-Infrastruktur ist es wichtig, die Art Ihrer Daten und die gewünschte Transformationsmethode zu berücksichtigen. Zu den gängigen Elementen eines typischen Konzepts gehören Datenquellen, ein Stagingbereich, das Warehouse selbst, Data Marts, Sandboxes und verschiedene Integrationstools.

  • Viele große Softwareunternehmen bieten mittlerweile eine Vielzahl von Data Warehouse-Produkten an.

  • Diese Funktionen sind jetzt Bestandteil von Azure Synapse Analytics, die als dedizierter SQL-Pool bezeichnet werden. Bestehende Azure SQL Data Warehouse-Kunden können ihre Workloads hier weiter ausführen, ohne Änderungen vornehmen zu müssen.

Kostenloses Konto

Testen Sie Azure Cloud Computing -Dienste bis zu 30 Tage lang kostenlos.

Nutzungsbasierte Bezahlung

Starten Sie mit nutzungsbasierter Bezahlung. Sie müssen vorab keine Verpflichtung eingehen und können jederzeit kündigen.