Zum Hauptinhalt wechseln

Was ist ein Data Lake?

Erfahren Sie mehr über den Unterschied zwischen Data Lakes und Data Warehouses. Erfahren Sie, wie Sie mit Azure eine skalierbare Grundlage für all Ihre Analysen erstellen.

Data Lake-Definition

In diesem Einführungsleitfaden werden die vielen Vorteile und Anwendungsfälle eines Data Lake erläutert. Erfahren Sie, was ein Data Lake ist, warum er wichtig ist, und entdecken Sie den Unterschied zwischen Data Lakes und Data Warehouses. Zunächst definieren wir Data Lake jedoch als Begriff.

Ein Data Lake ist ein zentrales Repository, das große Datenmengen in seiner ursprünglichen Form erfasst und speichert. Die Daten können dann verarbeitet und als Grundlage für eine Vielzahl von Analyseanforderungen verwendet werden. Aufgrund seiner offenen, skalierbaren Architektur kann ein Data Lake alle Arten von Daten aus beliebigen Quellen aufnehmen, von strukturierten (Datenbanktabellen, Excel-Blättern) über teilweise strukturierte (XML-Dateien, Webseiten) bis hin zu unstrukturierten (Bildern, Audiodateien, Tweets) Daten, alles ohne Einbußen bei der Genauigkeit. Die Datendateien werden in der Regel in gestaffelten Zonen gespeichert—unformatiert, bereinigt und zusammengestellt—, sodass verschiedene Benutzertypen die Daten in ihren verschiedenen Formen verwenden können, um ihre Anforderungen zu erfüllen. Data Lakes bieten eine kernbasierte Datenkonsistenz für eine Vielzahl von Anwendungen und unterstützen Big Data-Analysen, , maschinelles Lernen, Predictive Analytics, und andere intelligente Aktionen.

Warum sind Data Lakes für Unternehmen wichtig?

Die heutige, stark vernetzte, erkenntnisgesteuerte Welt wäre ohne die Einführung von Data Lake-Lösungen nicht möglich. Dies liegt daran, dass Organisationen umfassende Data Lakes-Plattformen wie Azure Data Lake benötigen, um Rohdaten konsolidiert, integriert, sicher und zugänglich zu halten. Skalierbare Speichertools wie Azure Data Lake Storage können Daten zu optimalen Kosten an einem zentralen Ort speichern und schützen, wodurch Silos beseitigt werden. Dies bildet die Grundlage für Benutzer, um eine Vielzahl von Workloadkategorien auszuführen, z. B. Big Data-Verarbeitung, SQL-Abfragen, Textmining, Streaminganalysen und Machine Learning. Die Daten können dann verwendet werden, um Upstreamdatenvisualisierung und Ad-hoc-Berichterstellungsanforderungen zu unterstützen. Eine moderne End-to-End-Datenplattform wie Azure Synapse Analytics erfüllt alle Anforderungen an eine Big Data-Architektur rund um den Data Lake.

Data Lake-Anwendungsfälle

Mit einer gut entworfenen Lösung ist das Innovationspotenzial für endlos. Hier sind nur einige Beispiele dafür, wie Organisationen aus verschiedenen Branchen Data Lake-Plattformen verwenden, um ihr Wachstum zu optimieren:

  • Streamingmedien. Abonnementbasierte Streamingunternehmen sammeln und verarbeiten Erkenntnisse zum Kundenverhalten, die sie zur Verbesserung ihres Empfehlungsalgorithmus verwenden können.
  • Finanzen. Investmentunternehmen verwenden die aktuellsten Marktdaten, die in Echtzeit erfasst und gespeichert werden, um Portfoliorisiken effizient zu verwalten.
  • Gesundheitswesen. Organisationen im Gesundheitswesen setzen auf Big Data, um die Qualität der Versorgung zu verbessern. Die Einnahmen verwenden umfangreiche historische Datenmengen, um Patientenpfade zu optimieren, was zu besseren Ergebnissen und verringerten Kosten für die Pflege führt.
  • Omnichannel-Händler. Händler verwenden Data Lakes, um Daten zu erfassen und zu konsolidieren, die von mehreren Touchpoints stammen, einschließlich Mobilgeräte, soziale Netzwerke, Chats, Mundpropaganda und persönliche Gespräche.
  • IoT. Hardwaresensoren generieren in der umgebenden physischen Welt große Mengen teilweise strukturierter bis unstrukturierter Daten. Data Lakes stellen ein zentrales Repository bereit, in dem diese Informationen zur zukünftigen Analyse gespeichert werden können.
  • Digitale Lieferkette. Data Lake unterstützen Hersteller bei der Konsolidierung unterschiedlicher Lagerdaten, einschließlich EDI-Systemen, XML und JSONs.
  • Sales. Data Scientists und Vertriebstechniker*innen erstellen häufig Vorhersagemodelle, um das Kundenverhalten zu bestimmen und die Abwanderung zu verringern.

Data Lake im Vergleich zu Data Warehouse

Jetzt wissen Sie, was ein Data Lake ist, warum er wichtig ist und wie er in einer Vielzahl von Organisationen verwendet wird. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Warehouse? Und wann ist es sinnvoll, das eine dem anderen vorzuziehen?

Während Data Lakes und Data Warehouses ähnlich sind, da sie Daten sowohl speichern als auch verarbeiten, aber beide haben ihre eigenen Besonderheiten und somit ihre eigenen Anwendungsfälle. Aus diesem Grund ist es üblich, dass ein Unternehmen einen Data Lake und ein Data Warehouse in sein Analyse-Ökosystem einbezieht. Beide Repositories arbeiten zusammen, um ein sicheres End-to-End-System für die Speicherung und Verarbeitung von Daten zu bilden und schnellere Erkenntnisse zu gewinnen.

Ein Data Lake erfasst sowohl relationale als auch nicht relationale Daten aus einer Vielzahl von Quellen – Geschäftsanwendungen, mobile Apps, IoT-Geräte, soziale Medien oder Streamingdienste – ohne die Struktur oder das Schema der Daten definieren zu müssen, bis sie gelesen werden. Schema-on-Read stellt sicher, dass alle Datentypen in der rohen Form gespeichert werden können. Daher kann der Data Lake eine Vielzahl von Datentypen in beliebigem Umfang enthalten – von strukturiert über teilweise strukturiert bis hin zu unstrukturiert. Ihre flexible und skalierbare Art macht sie zur Durchführung komplexer Formen der Datenanalyse mit unterschiedlichen Arten von Computeverarbeitungstools wie Apache Spark oder Azure Machine Learning unerlässlich.

Ein Data Warehouse hingegen ist relational. Die Struktur oder das Schema wird nach Geschäfts- und Produktanforderungen modelliert oder vordefiniert, die zusammengestellt, konform und für SQL-Abfragevorgänge optimiert sind. Während ein Data Lake Daten aller Strukturtypen enthält, einschließlich roher und nicht verarbeiteter Daten, speichert ein Data Warehouse Daten, die mit einem bestimmten Zweck behandelt und transformiert wurden und dann für die Analyse oder operative Berichterstellung verwendet werden können. Dadurch eignen sich Data Warehouses ideal für die Erstellung einheitlicherer BI-Analyseformen oder für die Bearbeitung eines bereits definierten Geschäftsfalls.

Nicht verfügbar Data Lake Data Warehouse
Typ Strukturiert, teilweise strukturiert, unstrukturiert Strukturiert
Nicht verfügbar Relational, nicht relational Relational
Schema Schema-on-Read Schema-on-Write
Format Unformatiert, ungefiltert Verarbeitet, überprüft
Quellen Big Data, IoT, soziale Medien, Streamingdaten Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung
Skalierbarkeit Einfache Skalierung zu geringen Kosten Schwierig und teuer zu skalieren
Benutzende Data Scientists, Data Engineers Data Warehouse-Profis, Geschäftsanalyst*innen
Anwendungsfälle Machine Learning, Predictive Analytics, Echtzeitanalyse Kernberichterstellung, BI

Data Lake im Vergleich zu Data Lakehouse

Nun kennen Sie den Unterschied zwischen einem Data Lake und einem Data Warehouse. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Lakehouse? Und ist es erforderlich, beides zu haben?

Trotz seiner vielen Vorteile hat auch ein herkömmlicher Data Lake Nachteile. Da Data Lakes alle Arten von Daten aus allen Arten von Quellen aufnehmen können, können Probleme im Zusammenhang mit der Qualitätskontrolle, Datenbeschädigung und unsachgemäßer Partitionierung auftreten. Ein schlecht verwalteter Data Lake beeinträchtigt nicht nur die Datenintegrität, sondern kann auch zu Engpässen, geringer Leistung und Sicherheitsrisiken führen.

Hier kommt das Data Lakehouse ins Spiel. Ein Data Lakehouse ist eine offene, auf Standards basierende Speicherlösung, die in ihrer Natur facettenreich ist. Sie kann die Anforderungen von Data Scientists und Technikern erfüllen, die umfassende Datenanalysen und -verarbeitungen durchführen, sowie die Anforderungen herkömmlicher Data Warehouse-Experten, die Daten zu Business Intelligence- und Berichterstellungszwecken zusammenstellen und veröffentlichen. Der Vorteil des Lakehouses besteht darin, dass jede Workload nahtlos auf dem Data Lake ausgeführt werden kann, ohne die Daten in einer anderen strukturell vordefinierten Datenbank duplizieren zu müssen. Dadurch wird sichergestellt, dass jeder an den aktuellsten Daten arbeitet, während gleichzeitig Redundanzen reduziert werden.

Data Lakehouses erfüllen die Herausforderungen des herkömmlichen Data Lake, indem sie eine Delta Lake-Speicherebene direkt über dem Cloud-Data Lake hinzufügen. Die Speicherebene bietet eine flexible Analysearchitektur, die ACID-Transaktionen (Atomicity, Consistency, Isolation, und Durability) für Datenzuverlässigkeit, Streamingintegrationen und erweiterte Features wie Datenversionsverwaltung und Schemaerzwingung verarbeiten kann. Dies ermöglicht eine Reihe von Analyseaktivitäten im gesamten Lake, und das alles ohne Beeinträchtigung der Kerndatenkonsistenz. Während die Nutzung eines Lakehouse davon abhängt, wie komplex Ihre Anforderungen sind, machen seine Flexibilität und Reichweite es zu einer optimalen Lösung für viele Unternehmensorganisationen.

Nicht verfügbar Data Lake Data Lakehouse
Typ Strukturiert, teilweise strukturiert, unstrukturiert Strukturiert, teilweise strukturiert, unstrukturiert
Nicht verfügbar Relational, nicht relational Relational, nicht relational
Schema Schema-on-Read Schema-on-Read, Schema-on-Write
Format Unformatiert, ungefiltert, verarbeitet, kuratiert Unformatierte, ungefilterte, verarbeitete, kuratiert, Deltaformatdateien
Quellen Big Data, IoT, soziale Medien, Streamingdaten Big Data, IoT, soziale Medien, Streamingdaten, Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung
Skalierbarkeit Einfache Skalierung zu geringen Kosten Einfache Skalierung zu geringen Kosten
Benutzende Data Scientists Geschäftsanalyst*innen, Data Engineers, Data Scientists
Anwendungsfälle Machine Learning, Predictive Analytics Kernberichterstellung, BI, Machine Learning, Predictive Analytics

Was ist Data Lake-Architektur?

In seinem Kern ist ein Data Lake ein Speicherrepository, für das keine eigene Architektur festgelegt ist. Um die Funktionen optimal nutzen zu können, ist eine breite Palette von Tools, Technologien und Computeengines erforderlich, die bei der Optimierung der Integration, Speicherung und Verarbeitung von Daten helfen. Diese Tools arbeiten zusammen, um eine zusammenhängende geschichtete Architektur zu erstellen, die von Big Data informiert wird und auf dem Data Lake ausgeführt wird. Diese Architektur kann auch die Betriebsstruktur eines Data Lakehouse bilden. Jede Organisation verfügt über eine eigene eindeutige Konfiguration, aber die meisten Data Lakehouse-Architekturen bieten Folgendes:

  • Ressourcenverwaltung und -orchestrierung. Ein Ressourcen-Manager ermöglicht dem Data Lake die konsistente Ausführung von Aufgaben, indem die richtige Menge an Daten, Ressourcen und Berechnungsleistung an den richtigen Stellen zugeordnet wird.
  • Connectors für einfachen Zugriff. Eine Vielzahl von Workflows ermöglicht Benutzenden den einfachen Zugriff auf die benötigten Daten und deren Freigabe in der benötigten Form.
  • Zuverlässige Analysen. Ein guter Analysedienst sollte schnell, skalierbar und verteilt sein. Außerdem sollte eine Vielzahl von Workloadkategorien in mehreren Sprachen unterstützt werden.
  • Datenklassifizierung. Datenprofilerstellung, -katalogisierung und -archivierung helfen Organisationen dabei, Dateninhalte, Qualität, Standort und Verlauf im Blick zu behalten.
  • Extrahier-, Lade-, Transformations(ELT)-Prozesse. ELT bezieht sich auf die Prozesse, durch die Daten aus mehreren Quellen extrahiert und in die Rohzone des Data Lakes geladen und anschließend nach der Extraktion bereinigt und transformiert werden, sodass Anwendungen sie problemlos verwenden können.
  • Sicherheit und Support. Datenschutztools wie Maskierung, Überwachung, Verschlüsselung und Zugriffsüberwachung stellen sicher, dass Ihre Daten sicher und privat bleiben.
  • Governance und Verwaltung. Damit die Data Lake-Plattform so reibungslos wie möglich funktioniert, sollten die Benutzenden über die Architekturkonfiguration sowie über bewährte Methoden für die Daten- und Betriebsverwaltung informiert werden.

Häufig gestellte Fragen

  • Ein Data Lake ist ein zentrales Repository, das große Datenmengen in ihrer ursprünglichen Form erfasst, speichert und verarbeitet. Es kann für alle Arten von Daten verwendet werden, die dann zum Nutzen von Big Data Analytics, Machine Learning und anderen intelligenten Aktionen verwendet werden.

    Weitere Informationen zu Data Lakes

  • Organisationen aus einer Vielzahl von Branchen, einschließlich Einzelhandel, Finanzen und Unterhaltung, verwenden Data Lake-Plattformen, um Daten zu speichern, Erkenntnisse zu sammeln und die Gesamtqualität ihrer Dienste zu verbessern. Investmentunternehmen verwenden z. B. Data Lakes, um marktaktuelle Daten zu sammeln und zu verarbeiten, sodass sie Portfoliorisiken effizienter verwalten können.
  • Data Lakes speichern alle Arten von Rohdaten, die Data Scientists dann für eine Vielzahl von Projekten verwenden können. Data Warehouses speichern bereinigte und verarbeitete Daten, die dann zum Erstellen von Analyse- oder Betriebsberichten sowie für bestimmte BI-Anwendungsfälle verwendet werden können.

    Entdecken Sie die Unterschiede zwischen Data Lakes und Data Warehouses

  • Ein Data Lakehouse kombiniert Elemente eines Data Lake und eines Data Warehouse zu einer flexiblen, End-to-End-Lösung für Data Science-- und Business Intelligence-Zwecke.

    Weitere Informationen zu Data Lakehouses

  • Absolut. Große Organisationen in allen Branchen verlassen sich auf die umfangreichen Datenmengen, die in Data Lakes gespeichert sind, um intelligente Maßnahmen zu ergreifen, Erkenntnisse zu gewinnen und zu wachsen.

    Entdecken Sie die Vorteile von Data Lakes

  • Große Datenmengen, einschließlich unformatierter und unstrukturierter Daten, können schwierig zu verwalten sein, was zu Engpässen, Datenbeschädigungen, Qualitätskontrollproblemen und Leistungsproblemen führen kann. Aus diesem Grund ist es wichtig, gute Governance- und Verwaltungspraktiken beizubehalten, damit Ihre Data Lake-Plattform reibungslos läuft.
  • Data Lake-Architektur bezieht sich auf die spezifische Konfiguration von Tools und Technologien, die dabei helfen, Daten aus dem Data Lake integriert, zugänglich, organisiert und sicher zu halten.

    Erkunden Sie bewährte Methoden für Data Lake-Architektur

Kostenloses Konto

Testen Sie Azure Cloud Computing Dienste bis zu 30 Tage lang kostenlos.

Nutzungsbasierte Bezahlung

Beginnen Sie mit der nutzungsbasierten Bezahlung. Es gibt keine Vorabverpflichtung—Sie können jederzeit kündigen.

Können wir Ihnen helfen?