Was ist ein Data Lake?
Erfahren Sie mehr über den Unterschied zwischen Data Lakes und Data Warehouses. Erfahren Sie, wie Sie mit Azure eine skalierbare Grundlage für all Ihre Analysen erstellen.
Definition von Data Lake
In diesem einführenden Leitfaden werden die zahlreichen Vorteile und Anwendungsfälle eines Data Lake erläutert. Erfahren Sie, was ein Data Lake ist, warum er wichtig ist, und entdecken Sie den Unterschied zwischen Data Lakes und Data Warehouses. Aber lassen Sie uns zunächst den Begriff „Data Lake“ definieren.
Ein Data Lake ist ein zentrales Repository, das große Datenmengen in ihrer ursprünglichen Form aufnimmt und speichert. Die Daten können dann verarbeitet und als Grundlage für eine Vielzahl von Analysen verwendet werden. Aufgrund seiner offenen, skalierbaren Architektur kann ein Data Lake alle Arten von Daten aus beliebigen Quellen aufnehmen, von strukturierten (Datenbanktabellen, Excel-Tabellen) über halbstrukturierte (XML-Dateien, Webseiten) bis hin zu unstrukturierten (Bilder, Audiodateien, Tweets), und zwar ohne Abstriche bei der Genauigkeit. Die Datendateien werden in der Regel in abgestuften Zonen – roh, bereinigt und kuratiert – gespeichert, so dass verschiedene Arten von Nutzern die Daten in ihren verschiedenen Formen nutzen können, um ihre Bedürfnisse zu erfüllen. Data Lakes sorgen für eine zentrale Datenkonsistenz in einer Vielzahl von Anwendungen, die Big Data-Analysen, maschinelles Lernen, prädiktive Analysen und andere Formen intelligenter Maßnahmen ermöglichen.
Warum sind Data Lakes für Unternehmen wichtig?
Die heutige, hochgradig vernetzte, auf Erkenntnissen basierende Welt wäre ohne die Einführung von Data Lake-Lösungen nicht möglich. Dies liegt daran, dass Organisationen umfassende Data Lakes-Plattformen wie Azure Data Lake benötigen, um Rohdaten konsolidiert, integriert, sicher und zugänglich zu halten. Skalierbare Speichertools wie Azure Data Lake Storage können Daten an einem zentralen Ort speichern und schützen, wodurch Silos zu optimalen Kosten beseitigt werden. Damit ist die Grundlage für eine Vielzahl von Workload-Kategorien geschaffen, wie z. B. Big Data-Verarbeitung, SQL-Abfragen, Textmining, Streaming-Analysen und maschinelles Lernen. Die Daten können dann für die vorgelagerte Datenvisualisierung und Ad-hoc-Berichterstattung verwendet werden. Eine moderne End-to-End-Datenplattform wie Azure Synapse Analytics erfüllt alle Anforderungen einer Big Data-Architektur, in deren Mittelpunkt der Data Lake steht.
Data Lake-Anwendungsfälle
Mit einer gut entworfenen Lösung ist das Potenzial für Innovationen endlos. Im Folgenden finden Sie einige Beispiele dafür, wie Unternehmen aus verschiedenen Branchen Data Lake-Plattformen nutzen, um ihr Wachstum zu optimieren:
- Streamingmedien. Abonnementbasierte Streaming-Unternehmen sammeln und verarbeiten Erkenntnisse über das Kundenverhalten, die sie zur Verbesserung ihres Empfehlungsalgorithmus nutzen können.
- Finanzdaten. Wertpapierfirmen nutzen die aktuellsten Marktdaten, die in Echtzeit gesammelt und gespeichert werden, um Portfoliorisiken effizient zu verwalten.
- Gesundheitswesen. Gesundheitsorganisationen verlassen sich auf Big Data, um die Qualität der Patientenversorgung zu verbessern. Krankenhäuser nutzen große Mengen historischer Daten, um die Patientenpfade zu optimieren, was zu besseren Ergebnissen und geringeren Pflegekosten führt.
- Omnichannel-Händler. Einzelhändler nutzen Data Lakes, um Daten zu erfassen und zu konsolidieren, die von verschiedenen Berührungspunkten stammen, darunter mobile und soziale Netzwerke, Chats, Mundpropaganda und persönliche Kontakte.
- IoT. Hardwaresensoren erzeugen enorme Mengen an halbstrukturierten bis unstrukturierten Daten über die sie umgebende physische Welt. Data Lakes bieten ein zentrales Repository für diese Informationen, in dem sie für zukünftige Analysen gespeichert werden.
- Digitale Lieferkette. Data Lakes helfen Herstellern bei der Konsolidierung unterschiedlicher Lagerdaten, einschließlich EDI-Systemen, XML und JSONs.
- Vertrieb. Wissenschaftliche Fachkraft für Daten und Vertriebsingenieure erstellen häufig Prognosemodelle, um das Kundenverhalten zu ermitteln und die Abwanderung insgesamt zu verringern.
Data Lake und Data Warehouse im Vergleich
Jetzt wissen Sie, was ein Data Lake ist, warum er wichtig ist und wie er in einer Vielzahl von Unternehmen eingesetzt wird. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Warehouse? Und wann ist es angebracht, das eine dem anderen vorzuziehen?
Data Lakes und Data Warehouses sind zwar ähnlich, da sie Daten speichern und verarbeiten, aber jede dieser Lösungen hat ihre eigenen Besonderheiten und daher ihre eigenen Anwendungsfälle. Aus diesem Grund ist es für Unternehmen üblich, einen Data Lake und ein Data Warehouse in ihr Analyse-Ökosystem einzubinden. Beide Repositorys arbeiten zusammen, um ein sicheres, durchgängiges System für die Speicherung und Verarbeitung von Daten zu bilden und die Zeit bis zum Erhalt von Erkenntnissen zu verkürzen.
Ein Data Lake erfasst sowohl relationale als auch nicht-relationale Daten aus einer Vielzahl von Quellen – Geschäftsanwendungen, mobile Apps, IoT-Geräte, soziale Medien oder Streaming –, ohne dass die Struktur oder das Schema der Daten definiert werden muss, bevor sie gelesen werden. Schema-on-Read gewährleistet, dass jede Art von Daten in ihrer Rohform gespeichert werden kann. Infolgedessen können Data Lakes eine Vielzahl von Datentypen enthalten, von strukturierten über halbstrukturierte bis hin zu unstrukturierten Daten, und das in beliebigem Umfang. Ihre flexible und skalierbare Natur macht sie unentbehrlich für die Durchführung komplexer Formen der Datenanalyse mit verschiedenen Arten von Datenverarbeitungstools wie Apache Spark oder Azure Machine Learning.
Im Vergleich ist ein Data Warehouse von Natur aus relational. Die Struktur oder das Schema wird durch Geschäfts- und Produktanforderungen modelliert oder vordefiniert, die für SQL-Abfrageoperationen kuratiert, angepasst und optimiert werden. Während ein Data Lake Daten aller Strukturtypen enthält, einschließlich roher und unverarbeiteter Daten, werden in einem Data Warehouse Daten gespeichert, die für einen bestimmten Zweck aufbereitet und umgewandelt wurden und die dann als Quelle für analytische oder operative Berichte dienen können. Daher eignen sich Data Warehouses ideal für die Erstellung standardisierter Formen von BI-Analysen oder zur Unterstützung eines bereits definierten Anwendungsfalls.
Data Lake | Data Warehouse | |
---|---|---|
Typ | Strukturiert, semistrukturiert, unstrukturiert | Strukturiert |
Relational, nicht relational | Relational | |
Schema | Schema beim Lesen | Schema beim Schreiben |
Format | Roh, ungefiltert | Verarbeitet, überprüft |
Quellen | Big Data, IoT, soziale Medien, Streamingdaten | Anwendung, Unternehmen, Transaktionsdaten, Batchberichterstellung |
Skalierbarkeit | Einfache, kostengünstige Skalierung | Schwierig und kostenaufwendig zu skalieren |
Benutzer | Wissenschaftliche Fachkraft für Daten, technische Fachkräfte für Daten | Data Warehouse-Experten, Business Analysts |
Anwendungsfälle | Machine Learning, Predictive Analytics, Echtzeitanalyse | Zentrale Berichterstattung, BI |
Data Lake und Data Lakehouse im Vergleich
Jetzt wissen Sie worin der Unterschied zwischen einem Data Lake und einem Data Warehouse besteht. Aber was ist der Unterschied zwischen einem Data Lake und einem Data Lakehouse? Und ist es erforderlich, beides zur Verfügung zu haben?
Trotz der vielen Vorteile ist ein herkömmlicher Data Lake nicht ohne Nachteile. Da Data Lakes alle Arten von Daten aus allen möglichen Quellen aufnehmen können, können Probleme im Zusammenhang mit der Qualitätskontrolle, der Datenkorruption und der unsachgemäßen Partitionierung auftreten. Ein schlecht verwalteter Data Lake beeinträchtigt nicht nur die Datenintegrität, sondern kann auch zu Engpässen, langsamer Leistung und Sicherheitsrisiken führen.
Hier kommt das Data Lakehouse ins Spiel. Ein Data Lakehouse ist eine auf offenen Standards basierende Speicherlösung, die von Natur aus vielseitig ist. Es erfüllt die Anforderungen der wissenschaftlichen und technischen Fachkräften für Daten, die tiefgreifende Datenanalysen und -verarbeitungen durchführen, ebenso wie die Anforderungen traditioneller Data Warehouse-Experten, die Daten für Business Intelligence- und Berichtszwecke aufbereiten und veröffentlichen. Das Schöne am Lakehouse ist, dass jede Workload nahtlos auf dem Data Lake ausgeführt werden kann, ohne die Daten in eine andere strukturell vordefinierte Datenbank duplizieren zu müssen. Dadurch wird sichergestellt, dass jeder an den aktuellsten Daten arbeitet, während gleichzeitig Redundanzen reduziert werden.
Data Lakehouses bewältigen die Herausforderungen herkömmlicher Data Lakes, indem sie direkt auf dem Cloud-Data Lake eine Delta Lake-Speicherebene hinzufügen. Die Speicherebene bietet eine flexible analytische Architektur, die ACID-Transaktionen (Atomarität, Konsistenz, Isolierung und Dauerhaftigkeit) für Datenzuverlässigkeit, Streaming-Integrationen und erweiterte Funktionen wie Datenversionierung und Schemaerzwingung verarbeiten kann. Dies ermöglicht eine Reihe von analytischen Aktivitäten über den Lake, ohne die Konsistenz der Kerndaten zu beeinträchtigen. Zwar hängt die Notwendigkeit eines Lakehouses davon ab, wie komplex Ihre Bedürfnisse sind, aber seine Flexibilität und Reichweite machen es zu einer optimalen Lösung für viele Unternehmensorganisationen.
Data Lake | Data Lakehouse | |
---|---|---|
Typ | Strukturiert, semistrukturiert, unstrukturiert | Strukturiert, semistrukturiert, unstrukturiert |
Relational, nicht relational | Relational, nicht relational | |
Schema | Schema beim Lesen | Schema beim Lesen, Schema beim Schreiben |
Format | Rohdaten, ungefiltert, verarbeitet, zusammengestellt | Rohdaten, ungefiltert, verarbeitet, zusammengestellt, Deltaformatdateien |
Quellen | Big Data, IoT, soziale Medien, Streamingdaten | Big Data, IoT, soziale Medien, Streamingdaten, Anwendung, Geschäft, Transaktionsdaten, Batchberichterstellung |
Skalierbarkeit | Einfache, kostengünstige Skalierung | Einfache, kostengünstige Skalierung |
Benutzer | Wissenschaftliche Fachkraft für Daten | Business Analysts, wissenschaftliche Fachkräfte für Daten, technische Fachkräfte für Daten |
Anwendungsfälle | Maschinelles Lernen, prädiktive Analysen | Kernberichterstellung, BI, aschinelles Lernen, prädiktive Analysen |
Was ist die Data Lake-Architektur?
Im Kern ist ein Data Lake ein Speicher-Repository ohne eigene Architektur. Um die Funktionen optimal nutzen zu können, sind eine Vielzahl von Tools, Technologien und Compute-Engines erforderlich, die die Integration, Speicherung und Verarbeitung von Daten optimieren. Diese Tools arbeiten zusammen, um eine zusammenhängend mehrstufige Architektur zu erstellen, die von Big Data informiert wird und auf dem Data Lake ausgeführt wird. Diese Architektur kann auch die Betriebsstruktur eines Data Lakehouse bilden. Jede Organisation verfügt über eine eigene eindeutige Konfiguration, aber die meisten Data Lakehouse-Architekturen weisen Folgendes auf:
- Ressourcenverwaltung und -orchestrierung. Ein Ressourcen-Manager ermöglicht dem Data Lake die konsistente Ausführung von Aufgaben, indem die richtige Menge an Daten, Ressourcen und Rechenleistung an den richtigen Stellen zugewiesen wird.
- Connectors für einfachen Zugriff. Eine Vielzahl von Workflows ermöglicht Benutzern den einfachen Zugriff auf die benötigten Daten und deren Freigabe in der Form, in der sie sie benötigen.
- Zuverlässige Analysen. Ein guter Analysedienst sollte schnell, skalierbar und verteilt sein. Es sollte auch eine Vielzahl von Workload-Kategorien in mehreren Sprachen unterstützen.
- Datenklassifizierung. Datenprofilerstellung, -katalogisierung und -archivierung helfen Organisationen dabei, Dateninhalte, Qualität, Speicherort und Verlauf nachzuverfolgen.
- ELT-Prozess (Extrahieren, Laden, Transformieren). ELT bezieht sich auf die Prozesse, mit denen Daten aus mehreren Quellen extrahiert und in die Rohzone des Data Lake geladen werden. Anschließend werden sie bereinigt und nach der Extraktion transformiert, sodass Anwendungen sie problemlos verwenden können.
- Sicherheit und Support. Datenschutztools wie Maskierung, Überwachung, Verschlüsselung und Zugriffsüberwachung stellen sicher, dass Ihre Daten sicher und privat bleiben.
- Governance und Verwaltung. Damit die Data Lake-Plattform so reibungslos wie möglich ausgeführt werden kann, sollten die Benutzer über ihre Architekturkonfiguration sowie über bewährte Methoden für die Daten- und Betriebsverwaltung informiert werden.
Zusätzliche Ressourcen
Häufig gestellte Fragen
-
Ein Data Lake ist ein zentralisiertes Repository, das große Datenmengen in ihrer ursprünglichen Form aufnimmt, speichert und deren Verarbeitung ermöglicht. Es kann alle Arten von Daten aufnehmen, die dann für Big Data-Analysen, maschinelles Lernen und andere Formen intelligenter Maßnahmen verwendet werden.
-
Organisationen aus verschiedenen Branchen, darunter Einzelhandel, Finanzwesen und Unterhaltung, nutzen Data Lake-Plattformen, um Daten zu speichern, Erkenntnisse zu gewinnen und die Gesamtqualität ihrer Dienste zu verbessern. Wertpapierfirmen beispielsweise nutzen Data Lakes, um aktuelle Daten zu sammeln und zu verarbeiten und so die Portfoliorisiken effizienter zu verwalten.
-
In Data Lakes werden alle Arten von Rohdaten gespeichert, die Datenwissenschaftler dann für eine Vielzahl von Projekten nutzen können. In Data Warehouses werden bereinigte und verarbeitete Daten gespeichert, die dann als Quelle für analytische oder operative Berichte sowie für spezielle BI-Anwendungsfälle verwendet werden können.
-
Ein Data Lakehouse kombiniert Elemente eines Data Lake und eines Data Warehouse zu einer flexiblen End-to-End-Lösung für Data Science - und Business Intelligence-Zwecke.
-
Kein Problem. Große Organisationen aller Branchen verlassen sich auf die riesigen Datenmengen, die in Data Lakes gespeichert sind, um intelligentes Handeln zu ermöglichen, Erkenntnisse zu gewinnen und zu wachsen.
-
Große Datenmengen, einschließlich roher und unstrukturierter Daten, können schwer zu verwalten sein, was zu Engpässen, Datenverfälschung, Problemen bei der Qualitätskontrolle und Leistungsproblemen führt. Deshalb ist es wichtig, gute Governance- und Verwaltungspraktiken zu pflegen, damit Sie Ihre Data Lake-Plattform reibungslos betreiben können.
-
Die Data Lake-Architektur bezieht sich auf die spezifische Konfiguration von Tools und Technologien, die dazu beitragen, dass Daten aus dem Data Lake integriert, zugänglich, organisiert und sicher sind.
Erkunden von bewährten Methoden für die Data Lake-Architektur
Kostenloses Konto
Testen Sie Azure Cloud Computing -Dienste bis zu 30 Tage lang kostenlos.
Nutzungsbasierte Bezahlung
Starten Sie mit nutzungsbasierter Bezahlung. Sie müssen vorab keine Verpflichtung eingehen und können jederzeit kündigen.