Navigation überspringen

Was ist Data Lake?

Sehen Sie sich an, wie sich Data Lakes von Data Warehouses und Data Lakehouses unterscheiden. Erfahren Sie, wie Sie mit Azure eine skalierbare Grundlage für all Ihre Analysen erstellen.

Was ist ein Data Lake?

In dieser Einführung werden die vielen Vorteile und Anwendungsfälle eines Data Lake untersucht. Erfahren Sie, was ein Data Lake ist, warum er wichtig ist und wie er sich von einem Data Warehouse oder Data Lakehouse unterscheidet. Definieren wir zunächst Data Lake als Begriff.

Ein Data Lake ist ein zentrales Repository, das große Datenmengen in seiner ursprünglichen Form erfasst und speichert. Die Daten können dann verarbeitet und als Grundlage für eine Vielzahl von Analyseanforderungen verwendet werden. Aufgrund seiner offenen, skalierbaren Architektur kann ein Data Lake alle Arten von Daten aus beliebigen Quellen aufnehmen, von strukturierten (Datenbanktabellen, Excel-Blättern) über semistrukturierte (XML-Dateien, Webseiten) bis hin zu unstrukturierten (Bildern, Audiodateien, Tweets) – alles ohne Einbußen bei der Genauigkeit. Die Datendateien werden normalerweise in gestaffelten Zonen gespeichert ( roh, bereinigt und zusammengestellt), sodass verschiedene Benutzende die Daten in verschiedenen Versionen verwenden können, um ihre Anforderungen zu entsprechen. Data Lake bietet Kerndatenkonsistenz in einer Vielzahl von Anwendungen und macht Big Data Analytics, Machine Learning, Predictive Analytics und andere Intelligente Maßnahmen möglich.

Sind Data Lakes wichtig?

Die heutige, stark vernetzte, erkenntnisgesteuerte Welt wäre ohne die Einführung von Data Lake-Lösungen nicht möglich. Dies liegt daran, dass Organisationen umfassende Data Lakes-Plattformen wie Azure Data Lake benötigen, um Rohdaten konsolidiert, integriert, sicher und zugänglich zu halten. Skalierbare Speichertools wie Azure Data Lake Storage können Daten zu optimalen Kosten an einem zentralen Ort speichern und schützen, wodurch Silos beseitigt werden. Dies bildet die Grundlage für Benutzer, um eine Vielzahl von Workloadkategorien auszuführen, z. B. Big Data-Verarbeitung, SQL-Abfragen, Textmining, Streaminganalysen und Machine Learning. Die Daten können dann verwendet werden, um Upstreamdatenvisualisierung und Ad-hoc-Berichterstellungsanforderungen zu unterstützen. Eine moderne End-to-End-Datenplattform wie Azure Synapse Analytics erfüllt alle Anforderungen an eine Big Data-Architektur rund um den Data Lake.

Data Lake-Anwendungsfälle

Mit einer gut entworfenen Lösung ist das Innovationspotenzial für endlos. Hier sind nur einige Beispiele dafür, wie Organisationen aus verschiedenen Branchen Data Lake-Plattformen verwenden, um ihr Wachstum zu optimieren:

  • Streamingmedien. Abonnementbasierte Streamingunternehmen sammeln und verarbeiten Erkenntnisse zum Kundenverhalten, die sie zur Verbesserung ihres Empfehlungsalgorithmus verwenden können.
  • Finanzen. Investmentunternehmen verwenden die aktuellsten Marktdaten, die in Echtzeit erfasst und gespeichert werden, um Portfoliorisiken effizient zu verwalten.
  • Gesundheitswesen. Organisationen im Gesundheitswesen setzen auf Big Data, um die Qualität der Versorgung zu verbessern. Die Einnahmen verwenden umfangreiche historische Datenmengen, um Patientenpfade zu optimieren, was zu besseren Ergebnissen und verringerten Kosten für die Pflege führt.
  • Omnichannel-Händler. Händler verwenden Data Lakes, um Daten zu erfassen und zu konsolidieren, die von mehreren Touchpoints stammen, einschließlich Mobilgeräte, soziale Netzwerke, Chats, Mundpropaganda und persönliche Gespräche.
  • IoT. Hardwaresensoren generieren in der umgebenden physischen Welt große Mengen teilweise strukturierter bis unstrukturierter Daten. Data Lakes stellen ein zentrales Repository bereit, in dem diese Informationen zur zukünftigen Analyse gespeichert werden können.
  • Digitale Lieferkette. Data Lake unterstützen Hersteller bei der Konsolidierung unterschiedlicher Lagerdaten, einschließlich EDI-Systemen, XML und JSONs.
  • Sales. Data Scientists und Vertriebstechniker*innen erstellen häufig Vorhersagemodelle, um das Kundenverhalten zu bestimmen und die Abwanderung zu verringern.

Data Lake im Vergleich zu Data Warehouse

Jetzt wissen Sie, was ein Data Lake ist, warum es wichtig ist und wie es in einer Vielzahl von Organisationen verwendet wird. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Warehouse? Und wann sollte welches verwendet werden?

Während Data Lake und Data Warehouse ähnlich sind, weil sie Daten sowohl speichern als auch verarbeiten, verfügen beide über ihre eigenen Spezialgebiete und somit ihre eigenen Anwendungsfälle. Deshalb ist es für eine Organisation auf Unternehmensebene üblich, einen Data Lake und ein Data Warehouse in ihr Analyseökosystem einzubinden. Beide Repositorys arbeiten zusammen, um ein sicheres End-to-End-System für Speicher, Verarbeitung und schnellere Erkenntnisse zu bilden.

Ein Data Lake erfasst sowohl relationale als auch nicht relationale Daten aus einer Vielzahl von Quellen – Geschäftsanwendungen, mobile Apps, IoT-Geräte, soziale Medien oder Streamingdienste – ohne die Struktur oder das Schema der Daten definieren zu müssen, bis sie gelesen werden. Schema-on-Read stellt sicher, dass alle Datentypen in der rohen Form gespeichert werden können. Daher kann der Data Lake eine Vielzahl von Datentypen in beliebigem Umfang enthalten – von strukturiert über teilweise strukturiert bis hin zu unstrukturiert. Ihre flexible und skalierbare Art macht sie zur Durchführung komplexer Formen der Datenanalyse mit unterschiedlichen Arten von Computeverarbeitungstools wie Apache Spark oder Azure Machine Learning unerlässlich.

Ein Data Warehouse hingegen ist relational. Die Struktur oder das Schema wird nach Geschäfts- und Produktanforderungen modelliert oder vordefiniert, die zusammengestellt, konform und für SQL-Abfragevorgänge optimiert sind. Während ein Data Lake Daten aller Strukturtypen enthält, einschließlich roher und nicht verarbeiteter Daten, speichert ein Data Warehouse Daten, die mit einem bestimmten Zweck behandelt und transformiert wurden und dann für die Analyse oder operative Berichterstellung verwendet werden können. Dadurch eignen sich Data Warehouses ideal für die Erstellung einheitlicherer BI-Analyseformen oder für die Bearbeitung eines bereits definierten Geschäftsfalls.

Nicht verfügbar Data Lake Data Warehouse
Typ Strukturiert, teilweise strukturiert, unstrukturiert Strukturiert
Nicht verfügbar Relational, nicht relational Relational
Schema Schema-on-Read Schema-on-Write
Format Unformatiert, ungefiltert Verarbeitet, überprüft
Quellen Big Data, IoT, soziale Medien, Streamingdaten Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung
Skalierbarkeit Einfache Skalierung zu geringen Kosten Schwierig und teuer zu skalieren
Benutzende Data Scientists, Data Engineers Data Warehouse-Profis, Geschäftsanalyst*innen
Anwendungsfälle Machine Learning, Predictive Analytics, Echtzeitanalyse Kernberichterstellung, BI

Was ist ein Data Lakehouse?

Jetzt kennen Sie den Unterschied zwischen einem Data Lake und einem Data Warehouse. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Lakehouse? Und ist es notwendig, beides zu haben?

Trotz seiner vielen Vorteile hat auch ein herkömmlicher Data Lake Nachteile. Da Data Lakes alle Arten von Daten aus allen Arten von Quellen aufnehmen können, können Probleme im Zusammenhang mit der Qualitätskontrolle, Datenbeschädigung und unsachgemäßer Partitionierung auftreten. Ein schlecht verwalteter Data Lake beeinträchtigt nicht nur die Datenintegrität, sondern kann auch zu Engpässen, geringer Leistung und Sicherheitsrisiken führen.

Hier kommt das Data Lakehouse ins Spiel. Ein Data Lakehouse ist eine offene, auf Standards basierende vielseitige Speicherlösung. Es kann die Anforderungen von Data Scientists und Engineers erfüllen, die eine umfassende Datenanalyse und -verarbeitung durchführen, sowie die Anforderungen herkömmlicher Data Warehouse-Profis, die Daten für Business Intelligence- und Berichterstellungszwecke zusammenstellen und veröffentlichen. Das Tolle an Lakehouses ist, dass jede Workload nahtlos auf dem Data Lake ausgeführt werden kann, ohne die Daten in eine andere strukturell vordefinierte Datenbank duplizieren zu müssen. Dadurch wird sichergestellt, dass alle an den aktuellsten Daten arbeiten, und gleichzeitig werden Redundanzen verringert.

Data Lakehouses erfüllen die Herausforderungen des herkömmlichen Data Lake, indem sie eine Delta Lake-Speicherebene direkt über dem Cloud-Data Lake hinzufügen. Die Speicherebene bietet eine flexible Analysearchitektur, die ACID-Transaktionen (Atomicity, Consistency, Isolation, und Durability) für Datenzuverlässigkeit, Streamingintegrationen und erweiterte Features wie Datenversionsverwaltung und Schemaerzwingung verarbeiten kann. Dies ermöglicht eine Reihe von Analyseaktivitäten im gesamten Lake, und das alles ohne Beeinträchtigung der Kerndatenkonsistenz. Während die Nutzung eines Lakehouse davon abhängt, wie komplex Ihre Anforderungen sind, machen seine Flexibilität und Reichweite es zu einer optimalen Lösung für viele Unternehmensorganisationen.

Nicht verfügbar Data Lake Data Lakehouse
Typ Strukturiert, teilweise strukturiert, unstrukturiert Strukturiert, teilweise strukturiert, unstrukturiert
Nicht verfügbar Relational, nicht relational Relational, nicht relational
Schema Schema-on-Read Schema-on-Read, Schema-on-Write
Format Unformatiert, ungefiltert, verarbeitet, kuratiert Unformatierte, ungefilterte, verarbeitete, kuratiert, Deltaformatdateien
Quellen Big Data, IoT, soziale Medien, Streamingdaten Big Data, IoT, soziale Medien, Streamingdaten, Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung
Skalierbarkeit Einfache Skalierung zu geringen Kosten Einfache Skalierung zu geringen Kosten
Benutzende Data Scientists Geschäftsanalyst*innen, Data Engineers, Data Scientists
Anwendungsfälle Machine Learning, Predictive Analytics Kernberichterstellung, BI, Machine Learning, Predictive Analytics

Was ist Data Lake-Architektur?

In seinem Kern ist ein Data Lake ein Speicherrepository, für das keine eigene Architektur festgelegt ist. Um die Funktionen optimal nutzen zu können, ist eine breite Palette von Tools, Technologien und Computeengines erforderlich, die bei der Optimierung der Integration, Speicherung und Verarbeitung von Daten helfen. Diese Tools arbeiten zusammen, um eine zusammenhängende geschichtete Architektur zu erstellen, die von Big Data informiert wird und auf dem Data Lake ausgeführt wird. Diese Architektur kann auch die Betriebsstruktur eines Data Lakehouse bilden. Jede Organisation verfügt über eine eigene eindeutige Konfiguration, aber die meisten Data Lakehouse-Architekturen bieten Folgendes:

  • Ressourcenverwaltung und -orchestrierung. Ein Ressourcen-Manager ermöglicht dem Data Lake die konsistente Ausführung von Aufgaben, indem die richtige Menge an Daten, Ressourcen und Berechnungsleistung an den richtigen Stellen zugeordnet wird.
  • Connectors für einfachen Zugriff. Eine Vielzahl von Workflows ermöglicht Benutzenden den einfachen Zugriff auf die benötigten Daten und deren Freigabe in der benötigten Form.
  • Zuverlässige Analysen. Ein guter Analysedienst sollte schnell, skalierbar und verteilt sein. Außerdem sollte eine Vielzahl von Workloadkategorien in mehreren Sprachen unterstützt werden.
  • Datenklassifizierung. Datenprofilerstellung, -katalogisierung und -archivierung helfen Organisationen dabei, Dateninhalte, Qualität, Standort und Verlauf im Blick zu behalten.
  • Extrahier-, Lade-, Transformations(ELT)-Prozesse. ELT bezieht sich auf die Prozesse, durch die Daten aus mehreren Quellen extrahiert und in die Rohzone des Data Lakes geladen und anschließend nach der Extraktion bereinigt und transformiert werden, sodass Anwendungen sie problemlos verwenden können.
  • Sicherheit und Support. Datenschutztools wie Maskierung, Überwachung, Verschlüsselung und Zugriffsüberwachung stellen sicher, dass Ihre Daten sicher und privat bleiben.
  • Governance und Verwaltung. Damit die Data Lake-Plattform so reibungslos wie möglich funktioniert, sollten die Benutzenden über die Architekturkonfiguration sowie über bewährte Methoden für die Daten- und Betriebsverwaltung informiert werden.

Häufig gestellte Fragen

  • Ein Data Lake ist ein zentrales Repository, das große Datenmengen in ihrer ursprünglichen Form erfasst, speichert und verarbeitet. Es kann für alle Arten von Daten verwendet werden, die dann zum Nutzen von Big Data Analytics, Machine Learning und anderen intelligenten Aktionen verwendet werden.

    Weitere Informationen zu Data Lakes

  • Data Lakes speichern alle Arten von Rohdaten, die Data Scientists dann für eine Vielzahl von Projekten verwenden können. Data Warehouses speichern bereinigte und verarbeitete Daten, die dann zum Erstellen von Analyse- oder Betriebsberichten sowie für bestimmte BI-Anwendungsfälle verwendet werden können.

    Entdecken Sie die Unterschiede zwischen Data Lakes und Data Warehouses

  • Ein Data Lakehouse kombiniert Elemente eines Data Lake und eines Data Warehouse zu einer flexiblen End-to-End-Lösung für Data Science- und Business Intelligence-Zwecke.

    Weitere Informationen zu Data Lakehouses

  • Absolut. Große Organisationen in allen Branchen verlassen sich auf die umfangreichen Datenmengen, die in Data Lakes gespeichert sind, um intelligente Maßnahmen zu ergreifen, Erkenntnisse zu gewinnen und zu wachsen.

    Entdecken Sie die Vorteile von Data Lakes

  • Data Lake-Architektur bezieht sich auf die spezifische Konfiguration von Tools und Technologien, die dabei helfen, Daten aus dem Data Lake integriert, zugänglich, organisiert und sicher zu halten.

    Erkunden Sie bewährte Methoden für Data Lake-Architektur

Erste Schritte mit einem kostenlosen Azure-Konto

Profitieren Sie 12 Monate lang kostenlos von beliebten Analysedienste. Mehr als 25 Dienste immer kostenlos und Guthaben  von $200, das Sie in den ersten 30 Tagen nutzen können.

Kontakt zu einem Azure-Vertriebsspezialisten

Erhalten Sie Ratschläge zu den ersten Schritten mit Analytics in Azure. Stellen Sie Fragen, erfahren Sie mehr über Preise und bewährte Methoden, und erhalten Sie Hilfe beim Entwerfen einer Lösung, die Ihren Anforderungen entspricht.

Können wir Ihnen helfen?