Wat is een datawarehouse?
Laten we eerst definiëren wat een datawarehouse is en waarom je er een zou willen gebruiken voor je organisatie.
Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage en analyse. De gegevens stromen binnen vanuit verschillende bronnen, zoals verkooppuntsystemen, bedrijfstoepassingen en relationele databasesrelationele databases, en worden meestal opgeschoond en gestandaardiseerd voordat ze in de warehouse terechtkomen. Omdat een datawarehouse grote hoeveelheden informatie kan opslaan, biedt het gebruikers gemakkelijke toegang tot een schat aan historische gegevens, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere vormen van business intelligence-rapportage.
Voordelen van een datawarehouse
Betrouwbare gegevens, met name wanneer ze in de loop van de tijd worden verzameld, helpen gebruikers om slimmere, beter geïnformeerde beslissingen te nemen over de manier waarop ze hun organisatie runnen – en datawarehouses maken dat mogelijk. Datawarehousing voor ondernemingen biedt talloze voordelen, maar enkele van de belangrijkste voordelen zijn:
-
Gegevens uit meerdere bronnen consolideren in één bron van waarheid
-
Historische gegevens opslaan en analyseren die maanden en jaren teruggaan
-
Gegevens opschonen en transformeren zodat deze nauwkeurig, consistent en gestandaardiseerd zijn in structuur en vorm
-
Querytijden verkorten bij het verzamelen van gegevens en het verwerken van analyses, waardoor de algehele prestaties in verschillende systemen worden verbeterd
-
Efficiënt gegevens laden zonder dat je te maken hebt met de kosten van implementatie of infrastructuur
-
Gegevens beveiligen zodat deze privé, beveiligd en veilig zijn
-
Gegevens voorbereiden voor analyse via gegevensanalyse, visualisatietools en andere vormen van geavanceerde analyse
Datawarehouse versus data lake
Het is duidelijk dat datawarehouses essentieel zijn voor de analysebewerkingen van elke organisatie. Maar wat is het verschil tussen een datawarehouse en andere soorten gegevensopslagplaatsen, zoals een data lake? En wanneer heeft de ene de voorkeur boven de andere?
Als opslagplaatsen worden in zowel datawarehouses als data lakes gegevens opgeslagen en verwerkt. Hoewel ze dezelfde functionaliteit lijken te bieden, hebben ze echter elk hun eigen specifieke use-cases. Daarom nemen organisaties vaak beide systemen op om een volledige, end-to-end oplossing te vormen die aan vele verschillende behoeften kan voldoen.
Een datawarehouse is relationeel van aard. Dit betekent dat de structuur of het schema van de gegevens wordt bepaald door vooraf gedefinieerde bedrijfs- en productvereisten die worden gecureerd, geconformeerd en geoptimaliseerd voor SQL-querybewerkingen. Als gevolg hiervan kunnen datawarehouses het beste worden gebruikt voor het opslaan van gegevens die met een specifiek doel in gedachten zijn behandeld, zoals gegevensanalyse voor BI-analyse of voor het verkrijgen van een zakelijke use-case die al is geïdentificeerd.
Net als datawarehouses bevatten data lakes gestructureerde en semi-gestructureerde gegevens. Ze kunnen echter ook onbewerkte en niet-verwerkte gegevens uit verschillende niet-relationele bronnen herbergen, waaronder mobiele apps, IoT-apparaten, sociale media of streaming. Dit komt doordat de structuur of het schema in een data lake pas wordt gedefinieerd zodra de gegevens zijn gelezen. Als gevolg van hun flexibele, schaalbare aard worden data lakes vaak gebruikt voor het uitvoeren van intelligente vormen van gegevensanalyse, zoals machine learning.
Data lake | Datawarehouse | |
---|---|---|
Type | Gestructureerd, semi-gestructureerd, ongestructureerd | Gestructureerd |
Schema | Schema bij lezen | Schema bij schrijven |
Indeling | Onbewerkt, ongefilterd | Verwerkt, gecontroleerd |
Bronnen | Big data, IoT, sociale media, streaminggegevens | Toepassing, bedrijf, transactionele gegevens, batchrapportage |
Schaalbaarheid | Gemakkelijk te schalen tegen lage kosten | Moeilijk en duur om te schalen |
Gebruikers | Datawetenschappers, data-engineers | Datawarehouse-professionals, bedrijfsanalisten |
Use-cases | Machine learning, predictive analytics, realtime analyse | Kernrapportage, BI |
Architectuur en ontwerp van de datawarehouse
Nu je weet waarom en wanneer je een datawarehouse moet gebruiken, gaan we dieper in op hoe een datawarehouse werkt door te kijken naar het ontwerp van een datawarehouse. Een datawarehouse is meer dan alleen maar een enkele silo die zelfstandig werkt. Het is een zeer gestructureerd, zorgvuldig ontworpen systeem dat bestaat uit meerdere lagen die op verschillende manieren met je gegevens – en elkaar – communiceren. Deze lagen omvatten doorgaans:
Onderste laag
Gegevens worden opgenomen uit meerdere bronnen en vervolgens opgeschoond en getransformeerd om door andere toepassingen te worden gebruikt, in een proces dat ETL (Extract, Transform and Load) wordt genoemd. De onderste laag is ook waar gegevens worden opgeslagen en geoptimaliseerd, wat leidt tot kortere querytijden en betere prestaties in het algemeen.
Middelste laag
Hier vind je de analyse-engine, ook wel de OLAP-server (Online Analytical Processing) genoemd. OLAP-servers hebben met hoge snelheid toegang tot grote hoeveelheden gegevens uit de datawarehouse, wat leidt tot bliksemsnelle resultaten.
Bovenste laag
De bovenste laag is waar de front-end interface de verwerkte gegevens visueel presenteert, die analisten kunnen openen en gebruiken voor al hun rapportage- en selfservice-BI-behoeften.
Een datawarehouse bouwen
Bij het ontwerpen en bouwen van een datawarehouse is het belangrijk om rekening te houden met de doelen van je organisatie, zowel op de lange termijn als ad-hoc, evenals de aard van je gegevens. Hoeveel gegevensbronnen integreer je? Ben je van plan je werkstromen te automatiseren? Hoe ga je je gegevens verkennen en analyseren? Je uitbouw is afhankelijk van de complexiteit van je behoeften, maar een typische datawarehouse voor ondernemingen kan uit de volgende onderdelen bestaan:
- Gegevensbronnen die operationele gegevens extraheren uit verkooppuntsystemen, bedrijfstoepassingen en andere relationele databases
- Een faseringsgebied waar gegevens worden opgeschoond en getransformeerd voor de warehouse of centrale opslagplaats
- Een warehouse of centrale opslagplaats waarin verwerkte operationele gegevens, metagegevens, samenvattingsgegevens en onbewerkte gegevens worden opgeslagen voor gemakkelijke gebruikerstoegang
- De toevoeging van data marts, die gegevens uit de gecentraliseerde opslagplaats haalt en deze in subsets levert aan geselecteerde groepen gebruikers
- Een sandbox, die datawetenschappers kunnen gebruiken om nieuwe vormen van gegevensverkenning in een beveiligde omgeving te testen
- Vele verschillende datawarehousing-tools, frameworks en API's voor integratie, opslag, prestaties en analyse
Tools, software en informatiebronnen voor datawarehouses
In de huidige gegevensgerichte wereld beschikken tal van grote softwarebedrijven over een ogenschijnlijk oneindig scala aan datawarehouse-software, elk met een eigen specifieke use-case. Het lijkt misschien ontmoedigend, maar om een samenhangende, hoogpresterende oplossing te kunnen bouwen, moet je in de juiste tools en technologieën investeren. Elke organisatie heeft andere behoeften, maar hier zijn enkele essentiële datawarehouse-producten om te overwegen:
Datawarehousing in de cloud en hybride cloud
Een geïntegreerde cloudoplossing voor datawarehousing, zoals Azure Synapse Analytics, geeft organisaties de mogelijkheid om sneller en goedkoper te schalen, te berekenen en op te slaan.
Tools voor gegevensintegratie
Met ETL-pijplijnen kunnen gebruikers hun werkstromen maken, plannen en organiseren, zodat brongegevens automatisch worden geïntegreerd, opgeschoond en gestandaardiseerd.
Objectopslag
Een oplossing voor objectopslag kan grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens bevatten, waardoor deze ideaal is voor het faseren van brongegevens voordat ze in de warehouse worden geladen.
Warehousing-tools
Een gedistribueerde opslagoplossing bevat grote verzamelingen gegevens in relationele tabellen met opslag in kolommen. Dit verlaagt de kosten aanzienlijk, verbetert de queryprestaties en verkort de tijd tot inzicht.
Prestatietools
Om de prestaties van je toepassingen te verbeteren, kun je Apache Spark opnemen: een opensource-framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking.
Beheer van resources en workloads
Een resourcemanager wijst rekenkracht toe aan je workloads, zodat je gegevens dienovereenkomstig kunt laden, analyseren, beheren en exporteren.
Gegevensmodellering
Met gegevensmodellering worden meerdere gegevensbronnen gecombineerd tot één semantisch model, wat een gestructureerde, gestroomlijnde weergave van je gegevens biedt.
Tools voor business intelligence
Tools voor bedrijfsanalyse helpen inzichten aan gebruikers te leveren in de vorm van dashboards, rapporten en andere visualisatietools.
Beveiligings- en privacyfuncties
Beveiligings- en compliancefuncties zoals gegevensversleuteling, gebruikersverificatie en toegangsbewaking zorgen ervoor dat je gegevens beschermd blijven.
Wat is er gebeurd met Azure SQL Data Warehouse?
De mogelijkheden van Azure SQL Data Warehouse zijn nu een functie van Azure Synapse Analytics , die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun bestaande Azure SQL Data Warehouse-workloads blijven uitvoeren met behulp van de functie 'Toegewezen SQL-pool' in Azure Synapse Analytics zonder enige veranderingen te merken. Klanten kunnen ook hun bestaande warehouse-gegevens beginnen te beheren met Azure Synapse Analytics om te profiteren van geavanceerde analysefuncties zoals serverloze data lake-verkenning en geïntegreerde SQL- en Apache Spark™-engines.
Veelgestelde vragen
-
Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage, analyse en andere vormen van business intelligence.
-
Het gebruik van een datawarehouse heeft veel voordelen. Een datawarehouse consolideert bijvoorbeeld meerdere gegevensbronnen in één bron van waarheid, die organisaties vervolgens kunnen gebruiken om beter geïnformeerde beslissingen te nemen over zaken en activiteiten.
-
In datawarehouses worden gestructureerde en semi-gestructureerde gegevens opgeslagen, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere specifieke BI-use-cases. In data lakes worden verschillende soorten onbewerkte gegevens opgeslagen, die datawetenschappers vervolgens kunnen gebruiken voor verschillende projecten.
-
Een datawarehouse bestaat doorgaans uit meerdere lagen: de onderste laag, waar gegevens worden verzameld en opgeslagen; de middelste laag, waar gegevens worden geanalyseerd; en de bovenste laag, waar de gegevens worden weergegeven voor gebruikers om te openen en parseren.
-
Bij het ontwerpen en bouwen van een datawarehouse-infrastructuur is het belangrijk om rekening te houden met de aard van je gegevens en hoe je deze wilt transformeren. Enkele veelvoorkomende elementen van een typische uitbouw zijn gegevensbronnen, een faseringsgebied, de warehouse zelf, data marts, sandboxes en verschillende integratietools.
-
Veel grote softwarebedrijven beschikken nu over een breed scala aan datawarehouse-producten.
-
Deze mogelijkheden zijn nu een functie van Azure Synapse Analytics, die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun workloads hier blijven uitvoeren zonder enige veranderingen te merken.
Aanvullende informatiebronnen
Gratis account
Probeer cloud-computingservices van Azure 30 dagen gratis uit.
Betalen per gebruik
Ga aan de slag met betalen per gebruik. Je zit nergens aan vast: je kunt op elk gewenst moment opzeggen.