Wat is een data lake?
Meer informatie over het verschil tussen data lakes en datawarehouses. Ontdek hoe je een schaalbare basis bouwt voor al je analyses met Azure.
Definitie van een datalake
In deze inleidende handleiding worden de vele voordelen en gebruiksvoorbeelden van een data lake verkend. Ontdek wat een data lake is, waarom het belangrijk is en ontdek het verschil tussen data lakes en datawarehouses. Maar laten we eerst data lake definiëren als een term.
Een data lake is een gecentraliseerde opslagplaats die grote hoeveelheden gegevens in de oorspronkelijke vorm opneemt en opslaat. De gegevens kunnen vervolgens worden verwerkt en gebruikt als basis voor verschillende analysebehoeften. Vanwege de open, schaalbare architectuur is een data lake geschikt voor alle soorten gegevens uit elke bron, van gestructureerd (databasetabellen, Excel-bladen) tot semi-gestructureerd (XML-bestanden, webpagina's) tot ongestructureerd (afbeeldingen, audiobestanden, tweets), zonder dat dit ten koste gaat van de betrouwbaarheid. De gegevensbestanden worden doorgaans opgeslagen in gefaseerde zones, 'onbewerkt', 'opgeschoond' en 'gecureerd', zodat verschillende typen gebruikers de gegevens in de verschillende vormen kunnen gebruiken om aan hun behoeften te voldoen. Data lakes bieden kerngegevensconsistentie in verschillende toepassingen, waardoor big data-analyse, machine learningmachine learning, predictive analytics en andere vormen van intelligente actie mogelijk worden.
Waarom zijn data lakes belangrijk voor bedrijven?
De tegenwoordig zeer verbonden, inzichtgestuurde wereld zou niet mogelijk zijn zonder de komst van data lake-oplossingen. Dat komt doordat organisaties afhankelijk zijn van uitgebreide data lakes-platformen, zoals Azure Data Lake, om onbewerkte gegevens geconsolideerd, geïntegreerd, veilig en toegankelijk te houden. Schaalbare opslaghulpprogramma's zoals Azure Data Lake Storage kunnen gegevens op één gecentraliseerde plaats bewaren en beveiligen, waardoor silo's tegen optimale kosten worden geëlimineerd. Dit vormt de basis voor gebruikers om een groot aantal workloadcategorieën uit te voeren, zoals big data-verwerking, SQL-query's, tekstanalyse, streaminganalyse en machine learning. De gegevens kunnen vervolgens worden gebruikt om upstream gegevensvisualisatie en ad-hoc rapportagebehoeften te voorzien. Een modern, end-to-end gegevensplatform zoals Azure Synapse Analytics voldoet aan de volledige behoeften van een big data-architectuur die is gericht op de data lake.
Use cases voor data lakes
Met een goed ontworpen oplossing is het potentieel voor innovatie eindeloos. Hier zijn slechts enkele voorbeelden van hoe organisaties in verschillende branches data lake-platformen gebruiken om hun groei te optimaliseren:
- Streamingmedia. Streamingbedrijven op basis van abonnementen verzamelen en verwerken inzichten in het gedrag van klanten, die ze kunnen gebruiken om hun aanbevelingsalgoritme te verbeteren.
- Financiën. Investeringsbedrijven gebruiken de meest recente marktgegevens, die in realtime worden verzameld en opgeslagen, om portfoliorisico's op efficiënte wijze te beheren.
- Gezondheidszorg. Organisaties in de Gezondheidszorg vertrouwen op big data om de kwaliteit van de zorg voor patiënten te verbeteren. Ziekenhuizen gebruiken enorme hoeveelheden historische gegevens om patiëntenpaden te stroomlijnen, wat resulteert in betere resultaten en lagere zorgkosten.
- Omnichannel-detailhandelaar. Detailhandelaren gebruiken data lakes om gegevens vast te leggen en te consolideren die afkomstig zijn van meerdere touchpoints, waaronder mobiel, sociaal, chat, mond-tot-mondreclame en persoonlijk.
- IoT. Hardwaresensoren genereren enorme hoeveelheden semi-gestructureerde tot ongestructureerde gegevens in de omliggende fysieke wereld. Data lakes bieden een centrale opslagplaats waarin deze informatie kan worden opgeslagen voor toekomstige analyse.
- Digitale toeleveringsketen. Data lakes helpen fabrikanten bij het consolideren van verschillende warehousegegevens, waaronder EDI-systemen, XML en JSON's.
- Verkoop. Gegevenswetenschappers en verkooptechnici bouwen vaak voorspellende modellen om het gedrag van klanten te bepalen en het algehele verloop te verminderen.
Data lake versus datawarehouse
Nu weet je wat een data lake is, waarom het belangrijk is en hoe deze wordt gebruikt in verschillende organisaties. Maar wat is het verschil tussen een data lake en een datawarehouse? En wanneer moet de ene of de andere worden gebruikt?
Hoewel data lakes en datawarehouses vergelijkbaar zijn omdat ze zowel gegevens opslaan als verwerken, hebben ze elk hun eigen specialisaties en dus hun eigen gebruiksscenario's. Daarom is het gebruikelijk dat een organisatie op ondernemingsniveau een data lake en een datawarehouse opneemt in het analyse-ecosysteem. Beide opslagplaatsen werken samen om een veilig, end-to-end systeem te vormen voor opslag, verwerking en snellere tijd tot inzicht.
Een data lake legt zowel relationele als niet-relationele gegevens vast uit verschillende bronnen, zoals zakelijke toepassingen, mobiele apps, IoT-apparaten, sociale media of streaming, zonder dat je de structuur of het schema van de gegevens hoeft te definiëren totdat deze worden gelezen. Schema bij lezen zorgt ervoor dat elk type gegevens in de onbewerkte vorm kan worden opgeslagen. Als gevolg hiervan kan data lakes een groot aantal verschillende gegevenstypen bevatten, van gestructureerd tot semi-gestructureerd tot ongestructureerd, op elke schaal. Hun flexibele en schaalbare aard maken ze essentieel voor het uitvoeren van complexe vormen van gegevensanalyse met behulp van verschillende soorten rekenverwerkingsprogramma's, zoals Apache Spark of Azure Machine Learning.
Een datawarehouse is daarentegen relationeel van aard. De structuur of het schema wordt gemodelleerd of vooraf gedefinieerd op basis van zakelijke en productvereisten die zijn gecureerd, conform gemaakt en geoptimaliseerd voor SQL-querybewerkingen. Hoewel een data lake gegevens van alle structuurtypen bevat, inclusief onbewerkte en niet-verwerkte gegevens, slaat een datawarehouse gegevens op die zijn behandeld en getransformeerd met een specifiek doel in gedachten, die vervolgens kunnen worden gebruikt om analytische of operationele rapportage te maken. Dit maakt datawarehouses ideaal voor het produceren van meer gestandaardiseerde vormen van BI-analyse of voor het leveren van een zakelijke use case die al is gedefinieerd.
Data lake | Datawarehouse | |
---|---|---|
Type | Gestructureerd, semi-gestructureerd, ongestructureerd | Gestructureerd |
Relationeel, niet-relationeel | Relationeel | |
Schema | Schema bij lezen | Schema bij schrijven |
Indeling | Onbewerkt, ongefilterd | Verwerkt, gecontroleerd |
Bronnen | Big data, IoT, sociale media, streaminggegevens | Toepassing, bedrijf, transactionele gegevens, batchrapportage |
Schaalbaarheid | Gemakkelijk te schalen tegen lage kosten | Moeilijk en duur om te schalen |
Gebruikers | Datawetenschappers, data-engineers | Datawarehouse-professionals, bedrijfsanalisten |
Use cases | Machine learning, predictive analytics, realtime analyse | Kernrapportage, BI |
Data lake versus data lakehouse
Je weet nu wat het verschil is tussen een data lake en een datawarehouse. Maar wat is het verschil tussen een data lake en een data lakehouse? En is het nodig om beide te hebben?
Ondanks de vele voordelen is een traditionele data lake niet zonder nadelen. Omdat data lakes geschikt zijn voor alle soorten gegevens uit allerlei soorten bronnen, kunnen problemen met betrekking tot kwaliteitscontrole, gegevensbeschadiging en onjuiste partitionering optreden. Een slecht beheerde data lake kan niet alleen de gegevensintegriteit in gevaar brengen, maar kan ook leiden tot knelpunten, trage prestaties en beveiligingsrisico's.
Dat is waar het data lakehouse naar voren treedt. Een data lakehouse is een open opslagoplossing op basis van standaarden die veel facetten heeft. Het kan voldoen aan de behoeften van gegevenswetenschappers en technici die grondige gegevensanalyse en -verwerking uitvoeren, evenals de behoeften van traditionele datawarehouseprofessionals die gegevens cureren en publiceren voor business intelligence- en rapportagedoeleinden. Het mooie van lakehouse is dat elke workload naadloos boven op de data lake kan werken zonder dat de gegevens hoeven te worden gedupliceerd naar een andere structureel vooraf gedefinieerde database. Dit zorgt ervoor dat iedereen aan de meest recente gegevens werkt, terwijl tegelijkertijd redundantie wordt verminderd.
Data lakehouses bieden een oplossing voor de uitdagingen van traditionele data lakes door een Delta Lake-opslaglaagDelta Lake-opslaglaag rechtstreeks boven op de cloud-data lake toe te voegen. De opslaglaag biedt een flexibele analysearchitectuur die ACID-transacties (atomiciteit, consistentie, isolatie en duurzaamheid) kan verwerken voor betrouwbaarheid van gegevens, streaming-integraties en geavanceerde functies zoals versiebeheer van gegevens en het afdwingen van schema's. Dit maakt een reeks analyseactiviteiten via het lake mogelijk, zonder dat dit ten koste gaat van de consistentie van kerngegevens. Hoewel de noodzaak van een lakehouse afhankelijk is van hoe complex je behoeften zijn, betekenen de flexibiliteit en het bereik ervan een optimale oplossing voor veel bedrijfsorganisaties.
Data lake | Data lakehouse | |
---|---|---|
Type | Gestructureerd, semi-gestructureerd, ongestructureerd | Gestructureerd, semi-gestructureerd, ongestructureerd |
Relationeel, niet-relationeel | Relationeel, niet-relationeel | |
Schema | Schema bij lezen | Schema bij lezen, schema bij schrijven |
Indeling | Onbewerkt, ongefilterd, verwerkt, gecureerd | Onbewerkt, ongefilterd, verwerkt, gecureerd, delta-indelingsbestanden |
Bronnen | Big data, IoT, sociale media, streaminggegevens | Big data, IoT, sociale media, streaminggegevens, toepassing, bedrijf, transactionele gegevens, batchrapportage |
Schaalbaarheid | Gemakkelijk te schalen tegen lage kosten | Gemakkelijk te schalen tegen lage kosten |
Gebruikers | Datawetenschappers | Bedrijfsanalisten, data-engineers, datawetenschappers |
Use cases | Machine learning, predictive analytics | Kernrapportage, BI, machine learning, predictive analytics |
Wat is data lake-architectuur?
In de kern is een data lake een opslagplaats zonder eigen setarchitectuur. Om optimaal gebruik te kunnen maken van de mogelijkheden, is een breed scala aan hulpprogramma's, technologieën en rekenengines vereist die de integratie, opslag en verwerking van gegevens helpen optimaliseren. Deze hulpprogramma's werken samen om een gelaagde architectuur te maken, die wordt geïnformeerd door big data en wordt uitgevoerd bovenop de data lake. Deze architectuur kan ook de operationele structuur van een data lakehouse vormen. Elke organisatie heeft een eigen unieke configuratie, maar de meeste data lakehouse-architecturen hebben het volgende:
- Resourcebeheer en indeling. Een resourcebeheerder stelt de data lake in staat om taken consistent uit te voeren door de juiste hoeveelheid gegevens, resources en rekenkracht toe te wijzen aan de juiste plaatsen.
- Connectors voor eenvoudige toegang. Met verschillende werkstromen kunnen gebruikers eenvoudig toegang krijgen tot de gegevens die ze nodig hebben en deze delen in de vorm waarin ze deze nodig hebben.
- Betrouwbare analyse. Een goede analyseservice moet snel, schaalbaar en gedistribueerd zijn. Het moet ook ondersteuning bieden voor een breed scala aan workloadcategorieën in meerdere talen.
- Gegevensclassificatie. Met gegevensprofilering, catalogiseren en archiveren kunnen organisaties gegevensinhoud, kwaliteit, locatie en geschiedenis bijhouden.
- ELT-processen (Extract, Load, Transform). ELT verwijst naar de processen waarmee gegevens uit meerdere bronnen worden geëxtraheerd en in de onbewerkte zone van de data lake worden geladen en vervolgens worden opgeschoond en getransformeerd na extractie, zodat toepassingen deze direct kunnen gebruiken.
- Beveiliging en ondersteuning. Hulpprogramma's voor gegevensbeveiliging, zoals maskering, controle, versleuteling en toegangsbewaking, zorgen ervoor dat je gegevens veilig en privé blijven.
- Governance en beheer. Om het data lake-platform zo soepel mogelijk te laten werken, moeten gebruikers worden geïnformeerd over de architectuurconfiguratie en best practices voor gegevens- en operationeel beheer.
Aanvullende informatiebronnen
Veelgestelde vragen
-
Een data lake is een gecentraliseerde opslagplaats die grote hoeveelheden gegevens in de oorspronkelijke vorm opneemt, opslaat en kan verwerken. Het is geschikt voor alle soorten gegevens, die vervolgens worden gebruikt om big data-analyses, machine learning en andere vormen van intelligente actie mogelijk te maken.
-
Organisaties in verschillende branches, waaronder detailhandel, financiën en entertainment, gebruiken data lake-platformen om gegevens op te slaan, inzichten te verzamelen en de algehele kwaliteit van hun services te verbeteren. Investeringsbedrijven gebruiken bijvoorbeeld data lakes om up-to-marketgegevens te verzamelen en te verwerken, zodat ze portfoliorisico's efficiënter kunnen beheren.
-
Data lakes slaan alle soorten onbewerkte gegevens op, die gegevenswetenschappers vervolgens kunnen gebruiken voor verschillende projecten. Datawarehouses slaan opgeschoonde en verwerkte gegevens op, die vervolgens kunnen worden gebruikt voor analyse- of operationele rapportage, evenals specifieke BI-use cases.
-
Een data lakehouse combineert elementen van een data lake en een datawarehouse tot een flexibele, end-to-end oplossing voor doeleinden met betrekking tot datawetenschap en business intelligence.
-
Zeker. Grote organisaties in alle branches vertrouwen op de enorme hoeveelheden gegevens die zijn opgeslagen in data lakes om intelligente actie te ondernemen, inzichten te verkrijgen en te groeien.
-
Grote hoeveelheden gegevens, waaronder onbewerkte en ongestructureerde gegevens, kunnen moeilijk te beheren zijn, wat kan leiden tot knelpunten, beschadigde gegevens, problemen met kwaliteitscontrole en prestatieproblemen. Daarom is het belangrijk om goede governance- en beheerprocedures te onderhouden om je te helpen je data lake-platform probleemloos uit te voeren.
-
Data lake-architectuur verwijst naar de specifieke configuratie van hulpprogramma's en technologieën waarmee je gegevens van de data lake geïntegreerd, toegankelijk, geordend en veilig kunt houden.
Gratis account
Probeer cloud-computingservices van Azure 30 dagen gratis uit.
Betalen naar gebruik
Ga aan de slag met betalen per gebruik. Je zit nergens aan vast: je kunt op elk gewenst moment opzeggen.