Wat is een datawarehouse?
Ontdek wat een datawarehouse is, wat de voordelen zijn van het gebruik van een datawarehouse, welke aanbevolen proceduren u moet overwegen tijdens de ontwerpfase en welke hulpprogramma's u moet opnemen wanneer het uiteindelijk tijd is om te bouwen.
Wat is een datawarehouse?
Een datawarehouse definiëren en waarom u een datawarehouse wilt gebruiken voor uw organisatie.
Een datawarehouse is een centrale opslagplaats waarin gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) worden opgeslagen voor rapportage en analyse. De gegevens stromen binnen vanuit verschillende bronnen, zoals verkooppuntsystemen, bedrijfstoepassingen en relationele databases. De gegevens worden meestal opgeschoond en gestandaardiseerd voordat deze aan het datawarehouse worden toegevoegd. Omdat een datawarehouse grote hoeveelheden informatie kan opslaan, biedt het gebruikers eenvoudige toegang tot een schat aan historische gegevens, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere vormen van rapportage voor bedrijfsinformatie.
Voordelen van datawarehouse
Betrouwbare gegevens, met name wanneer ze in de loop van de tijd worden geaggregeerd, helpen gebruikers om slimmere, beter geïnformeerde beslissingen te nemen over de manier waarop ze hun organisatie uitvoeren en datawarehouses zijn wat dat mogelijk maakt. De voordelen van zakelijke datawarehousing zijn ontelbaar, maar enkele van de belangrijkste voordelen zijn:
- Gegevens uit meerdere bronnen consolideren in één bron van waarheid
- Historische gegevens op lange termijn opslaan en analyseren die maanden en jaren omvatten
- Gegevens opschonen en transformeren zodat deze nauwkeurig, consistent en gestandaardiseerd zijn in structuur en vorm
- Querytijden verminderen bij het verzamelen van gegevens en verwerkingsanalyses, waardoor de algehele prestaties in verschillende systemen worden verbeterd
- Efficiënt gegevens laden zonder dat u te maken hebt met de kosten van implementatie of infrastructuur
- Gegevens beveiligen zodat deze privé, beveiligd en veilig zijn
- Gegevens voorbereiden voor analyse via gegevensanalyse, visualisatiehulpprogramma's en andere vormen van geavanceerde analyse
Datawarehouse versus data lake
Het is duidelijk dat datawarehouses essentieel zijn voor de analysebewerkingen van elke organisatie. Maar wat is het verschil tussen een datawarehouse en andere typen gegevensopslagplaatsen, zoals een data lake? En wanneer moet de ene over de andere worden gebruikt?
Als opslagplaatsen slaan datawarehouses en data lakes gegevens op en verwerken ze deze. Hoewel ze mogelijk dezelfde functionaliteit bieden, hebben ze elk hun eigen specifieke gebruiksvoorbeelden. Dit is de reden waarom organisaties vaak beide systemen opnemen om een volledige, end-to-end oplossing te vormen die een breed scala aan doeleinden kan verwerken.
Een datawarehouse is relationeel van aard. Dit betekent dat de structuur of het schema van de gegevens wordt bepaald door vooraf gedefinieerde bedrijfs- en productvereisten die worden gecureerd, voldaan en geoptimaliseerd voor SQL-querybewerkingen. Als gevolg hiervan kunnen datawarehouses het beste worden gebruikt voor het opslaan van gegevens die met een specifiek doel in gedachten zijn behandeld, zoals gegevensanalyse voor BI-analyse of voor het verkrijgen van een bedrijfsgebruikscase die al is geïdentificeerd.
Net als datawarehouses bevatten data lakes gestructureerde en semi-gestructureerde gegevens. Ze kunnen echter ook onbewerkte en niet-verwerkte gegevens uit verschillende niet-relationele bronnen verwerken, waaronder mobiele apps, IoT-apparaten, sociale media of streaming. Dit komt doordat de structuur of het schema in een data lake pas wordt gedefinieerd als de gegevens zijn gelezen. Als gevolg van hun flexibele, schaalbare aard worden data lakes vaak gebruikt voor het uitvoeren van intelligente vormen van gegevensanalyse, zoals machine learning.
Data lake | Datawarehouse | |
---|---|---|
Type |
Gestructureerd, semi-gestructureerd, ongestructureerd Relationeel, niet-relationeel |
Gestructureerd Relationeel |
Schema | Schema bij lezen | Schema bij schrijven |
Notatie | Onbewerkt, niet gefilterd | Verwerkt, gecontroleerd |
Bronnen | Big data, IoT, sociale media, streaminggegevens | Toepassing, bedrijf, transactionele gegevens, batchrapportage |
Schaalbaarheid | Eenvoudig te schalen tegen lage kosten | Moeilijk en duur om te schalen |
Gebruikers | Gegevenswetenschappers, gegevenstechnici | Datawarehouse-professionals, bedrijfsanalisten |
Gebruikscases | Machine learning, predictive analytics, realtime analyse | Kernrapportage, BI |

Architectuur en ontwerp van datawarehouse
Nu u weet waarom en wanneer u een datawarehouse moet gebruiken, gaan we dieper in op hoe een datawarehouse werkt door te kijken naar het ontwerp van een datawarehouse. Een datawarehouse is meer dan slechts één silo die zelfstandig werkt. In plaats daarvan is het een zeer gestructureerd, zorgvuldig ontworpen systeem dat bestaat uit meerdere lagen die op verschillende manieren met uw gegevens, en elkaar, communiceren. Deze lagen omvatten doorgaans:
De onderste laag
Gegevens worden opgenomen uit meerdere bronnen en vervolgens opgeschoond en getransformeerd zodat andere toepassingen kunnen worden gebruikt in een proces dat ETL (extract, transform, and load) wordt genoemd. De onderste laag is ook waar gegevens worden opgeslagen en geoptimaliseerd, wat leidt tot snellere querytijden en betere prestaties in het algemeen.
Middelste laag
Hier vindt u de analyse-engine, ook wel de OLAP-server (Online Analytical Processing) genoemd. OLAP-servers hebben met hoge snelheid toegang tot grote hoeveelheden gegevens uit het datawarehouse, wat leidt tot bliksemsnelle resultaten.
Bovenste laag
De bovenste laag is waar de front-end-interface de verwerkte gegevens visueel presenteert, die analisten kunnen openen en gebruiken voor al hun rapportage- en selfservice-BI-behoeften.
Een datawarehouse bouwen
Wanneer u een datawarehouse ontwerpt en bouwt, is het belangrijk om rekening te houden met de doelstellingen van uw organisatie, zowel op de lange termijn als ad-hoc, als op de aard van uw gegevens. Hoeveel gegevensbronnen wilt u integreren? Bent u van plan uw werkstromen te automatiseren? Hoe gaat u uw gegevens verkennen en analyseren? Uw build-out is afhankelijk van de complexiteit van uw behoeften, maar een typisch databasewarehouse voor ondernemingen kan bestaan uit de volgende onderdelen: :
- Databronnen die operationele gegevens extraheren van point-of-sale-systemen, bedrijfstoepassingen en andere relationele databases
- Een bewaargebied waar gegevens worden opgeschoond en getransformeerd voor het magazijn of de gecentraliseerde opslagplaats
- A warehouse of centrale opslagplaats waarin verwerkte operationele gegevens worden opgeslagen, metagegevens, samenvattingsgegevens, en onbewerkte gegevens voor eenvoudige gebruikerstoegang
- De toevoeging van datamarters, die gegevens uit de gecentraliseerde opslagplaats haalt en deze in subsets levert aan geselecteerde groepen gebruikers
- Een sandbox, welke gegevenswetenschappers kunnen gebruiken om nieuwe vormen van gegevensverkenning te testen in een beveiligde omgeving
- Een groot aantal datawarehousing-hulpprogramma's, frameworks en API's voor integratie, opslag, prestaties en analyse

Datawarehouse-hulpprogramma's, software en resources
In de huidige gegevensgerichte wereld beschikken tal van grote softwarebedrijven over een oneindig scala aan datawarehouse-software, elk met een eigen specifieke gebruikscase. Het lijkt misschien lastig, maar als u een samenhangende oplossing met hoge prestaties wilt bouwen, moet u investeren in de juiste hulpprogramma's en technologieën. De behoeften van elke organisatie verschillen, maar hier zijn enkele essentiële datawarehouse-producten om in te kijken:
Datawarehousing in de cloud en hybride cloud
Een geïntegreerde cloudoplossing voor datawarehousing, zoals Azure Synapse Analytics, biedt organisaties de mogelijkheid om sneller en goedkoper te schalen, te berekenen en op te slaan.
Hulpprogramma's voor gegevensintegratie
Met ETL-pijplijnen kunnen gebruikers hun werkstromen maken, plannen en organiseren, zodat brongegevens automatisch worden geïntegreerd, opgeschoond en gestandaardiseerd.
Objectopslag
Een oplossing voor objectopslag kan grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens bevatten, waardoor deze ideaal is voor fasering van brongegevens voordat deze in het magazijn worden geladen.
Magazijnhulpprogramma's
Een gedistribueerde opslagoplossing bevat grote sets gegevens in relationele tabellen met kolomopslag. Dit verlaagt de kosten aanzienlijk, verbetert de queryprestaties en versnelt de tijd tot inzicht.
Prestatiehulpprogramma's
Om de prestaties van uw toepassingen te verbeteren, kunt u Apache Spark, een opensource-framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking, opnemen.
Resource- en workloadbeheer
Een resourcemanager wijst rekenkracht toe aan uw workloads, zodat u gegevens dienovereenkomstig kunt laden, analyseren, beheren en exporteren.
Gegevensmodellering
Met gegevensmodellering worden meerdere gegevensbronnen gecombineerd tot één semantisch model, wat een gestructureerde, gestroomlijnde weergave van uw gegevens biedt.
Hulpprogramma's voor business intelligence
Hulpprogramma's voor bedrijfsanalyse helpen gebruikers inzichten te leveren in de vorm van dashboards, rapporten en andere visualisatiehulpprogramma's.
Beveiligings- en privacyfuncties
Beveiligings- en nalevingsfuncties zoals gegevensversleuteling, gebruikersverificatie en toegangsbewaking zorgen ervoor dat uw gegevens beveiligd blijven.

Wat is er gebeurd met Azure SQL Data Warehouse?
De mogelijkheden die zijn gekoppeld aan Azure SQL Data Warehouse zijn nu een functie van Azure Synapse Analytics, genaamd de toegewezen SQL-pool. Bestaande Azure SQL Data Warehouse-klanten kunnen hun bestaande Azure SQL Data Warehouse-workloads blijven uitvoeren met behulp van de toegewezen SQL-poolfunctie in Azure Synapse Analytics zonder wijzigingen door te voeren. Klanten kunnen ook beginnen met het beheren van hun bestaande warehouse-gegevens met Azure Synapse Analytics om te profiteren van geavanceerde analysefuncties zoals serverloze data lake verkenning en geïntegreerde SQL- en Apache Spark-engines™.
Veelgestelde vragen
-
Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage, analyse en andere vormen van bedrijfsinformatie.
-
Er zijn veel voordelen van het gebruik van een datawarehouse. Een datawarehouse consolideert bijvoorbeeld meerdere gegevensbronnen in één bron van waarheid, die organisaties vervolgens kunnen gebruiken om beter onderbouwde beslissingen te nemen met betrekking tot bedrijfsactiviteiten.
-
Datawarehouses slaan gestructureerde en semi-gestructureerde gegevens op, die kunnen worden gebruikt voor het analyseren van gegevens, gegevensvisualisatie en andere specifieke BI-gebruikscases. Data lakes slaan verschillende soorten onbewerkte gegevens op, die gegevenswetenschappers vervolgens kunnen gebruiken om verschillende projecten te maken.
-
Een datawarehouse bestaat doorgaans uit meerdere lagen: de onderste laag, waar gegevens worden verzameld en opgeslagen; de middelste laag, waar gegevens worden geanalyseerd; en de bovenste laag, waar de gegevens worden weergegeven voor gebruikers om toegang te krijgen tot en te parseren via.
-
Wanneer u een datawarehouse-infrastructuur ontwerpt en bouwt, is het belangrijk om na te denken over de aard van uw gegevens en hoe u deze wilt transformeren. Enkele veelvoorkomende elementen van een typische build-out zijn gegevensbronnen, een faseringsgebied, het warehouse zelf, datamarts, sandboxes en verschillende integratiehulpprogramma's.
-
Veel grote softwarebedrijven beschikken nu over een breed scala aan datawarehouse-producten.
Ontdek hulpprogramma's, software en resources voor datawarehouses
-
Deze mogelijkheden zijn nu een functie van Azure Synapse Analytics, genaamd de toegewezen SQL-pool. Bestaande Azure SQL Data Warehouse-klanten kunnen hun workloads hier blijven uitvoeren zonder wijzigingen door te voeren.
Aanvullende bronnen
Verkennen
Handleidingen
Gratis account
Probeer Azure cloudcomputing-services maximaal 30 dagen gratis uit.
Betalen naar gebruik
Aan de slag met prijzen voor Betalen per gebruik. Er is geen verplichting vooraf—annuleer op elk gewenst moment.