Trace Id is missing
Naar hoofdinhoud gaan
Vier mensen die face-to-face iets bespreken met een presentatie op een laptop

Wat is een datawarehouse?

Ontdek wat een datawarehouse is, wat de voordelen zijn van het gebruik ervan, welke best practices je moet overwegen tijdens de ontwerpfase en welke tools je moet opnemen wanneer het eindelijk tijd is om de datawarehouse te bouwen.

Wat is een datawarehouse?

Laten we eerst definiëren wat een datawarehouse is en waarom je er een zou willen gebruiken voor je organisatie.

Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage en analyse. De gegevens stromen binnen vanuit verschillende bronnen, zoals verkooppuntsystemen, bedrijfstoepassingen en relationele databasesrelationele databases, en worden meestal opgeschoond en gestandaardiseerd voordat ze in de warehouse terechtkomen. Omdat een datawarehouse grote hoeveelheden informatie kan opslaan, biedt het gebruikers gemakkelijke toegang tot een schat aan historische gegevens, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere vormen van business intelligence-rapportage.

Twee personen controleren rapportgegevens in een tabel

Voordelen van een datawarehouse

Betrouwbare gegevens, met name wanneer ze in de loop van de tijd worden verzameld, helpen gebruikers om slimmere, beter geïnformeerde beslissingen te nemen over de manier waarop ze hun organisatie runnen – en datawarehouses maken dat mogelijk. Datawarehousing voor ondernemingen biedt talloze voordelen, maar enkele van de belangrijkste voordelen zijn:

Datawarehouse versus data lake

Het is duidelijk dat datawarehouses essentieel zijn voor de analysebewerkingen van elke organisatie. Maar wat is het verschil tussen een datawarehouse en andere soorten gegevensopslagplaatsen, zoals een data lake? En wanneer heeft de ene de voorkeur boven de andere?

Als opslagplaatsen worden in zowel datawarehouses als data lakes gegevens opgeslagen en verwerkt. Hoewel ze dezelfde functionaliteit lijken te bieden, hebben ze echter elk hun eigen specifieke use-cases. Daarom nemen organisaties vaak beide systemen op om een volledige, end-to-end oplossing te vormen die aan vele verschillende behoeften kan voldoen.

Een datawarehouse is relationeel van aard. Dit betekent dat de structuur of het schema van de gegevens wordt bepaald door vooraf gedefinieerde bedrijfs- en productvereisten die worden gecureerd, geconformeerd en geoptimaliseerd voor SQL-querybewerkingen. Als gevolg hiervan kunnen datawarehouses het beste worden gebruikt voor het opslaan van gegevens die met een specifiek doel in gedachten zijn behandeld, zoals gegevensanalyse voor BI-analyse of voor het verkrijgen van een zakelijke use-case die al is geïdentificeerd.

Net als datawarehouses bevatten data lakes gestructureerde en semi-gestructureerde gegevens. Ze kunnen echter ook onbewerkte en niet-verwerkte gegevens uit verschillende niet-relationele bronnen herbergen, waaronder mobiele apps, IoT-apparaten, sociale media of streaming. Dit komt doordat de structuur of het schema in een data lake pas wordt gedefinieerd zodra de gegevens zijn gelezen. Als gevolg van hun flexibele, schaalbare aard worden data lakes vaak gebruikt voor het uitvoeren van intelligente vormen van gegevensanalyse, zoals machine learning.

ondersteuningsplan voor de hele organisatie
Data lake Datawarehouse
Type

Gestructureerd, semi-gestructureerd, ongestructureerd
Relationeel, niet-relationeel

Gestructureerd
Relationeel

Schema

Schema bij lezen

Schema bij schrijven

Indeling

Onbewerkt, ongefilterd

Verwerkt, gecontroleerd

Bronnen

Big data, IoT, sociale media, streaminggegevens

Toepassing, bedrijf, transactionele gegevens, batchrapportage

Schaalbaarheid

Gemakkelijk te schalen tegen lage kosten

Moeilijk en duur om te schalen

Gebruikers

Datawetenschappers, data-engineers

Datawarehouse-professionals, bedrijfsanalisten

Use-cases

Machine learning, predictive analytics, realtime analyse

Kernrapportage, BI

Een persoon zit op een stoel en werkt op een desktop

Architectuur en ontwerp van de datawarehouse

Nu je weet waarom en wanneer je een datawarehouse moet gebruiken, gaan we dieper in op hoe een datawarehouse werkt door te kijken naar het ontwerp van een datawarehouse. Een datawarehouse is meer dan alleen maar een enkele silo die zelfstandig werkt. Het is een zeer gestructureerd, zorgvuldig ontworpen systeem dat bestaat uit meerdere lagen die op verschillende manieren met je gegevens – en elkaar – communiceren. Deze lagen omvatten doorgaans:

Onderste laag

Gegevens worden opgenomen uit meerdere bronnen en vervolgens opgeschoond en getransformeerd om door andere toepassingen te worden gebruikt, in een proces dat ETL (Extract, Transform and Load) wordt genoemd. De onderste laag is ook waar gegevens worden opgeslagen en geoptimaliseerd, wat leidt tot kortere querytijden en betere prestaties in het algemeen.

Middelste laag

Hier vind je de analyse-engine, ook wel de OLAP-server (Online Analytical Processing) genoemd. OLAP-servers hebben met hoge snelheid toegang tot grote hoeveelheden gegevens uit de datawarehouse, wat leidt tot bliksemsnelle resultaten.

Bovenste laag

De bovenste laag is waar de front-end interface de verwerkte gegevens visueel presenteert, die analisten kunnen openen en gebruiken voor al hun rapportage- en selfservice-BI-behoeften.

Een datawarehouse bouwen

Bij het ontwerpen en bouwen van een datawarehouse is het belangrijk om rekening te houden met de doelen van je organisatie, zowel op de lange termijn als ad-hoc, evenals de aard van je gegevens. Hoeveel gegevensbronnen integreer je? Ben je van plan je werkstromen te automatiseren? Hoe ga je je gegevens verkennen en analyseren? Je uitbouw is afhankelijk van de complexiteit van je behoeften, maar een typische datawarehouse voor ondernemingen kan uit de volgende onderdelen bestaan:

  1. Gegevensbronnen die operationele gegevens extraheren uit verkooppuntsystemen, bedrijfstoepassingen en andere relationele databases
  2. Een faseringsgebied waar gegevens worden opgeschoond en getransformeerd voor de warehouse of centrale opslagplaats
  3. Een warehouse of centrale opslagplaats waarin verwerkte operationele gegevens, metagegevens, samenvattingsgegevens en onbewerkte gegevens worden opgeslagen voor gemakkelijke gebruikerstoegang
  4. De toevoeging van data marts, die gegevens uit de gecentraliseerde opslagplaats haalt en deze in subsets levert aan geselecteerde groepen gebruikers
  5. Een sandbox, die datawetenschappers kunnen gebruiken om nieuwe vormen van gegevensverkenning in een beveiligde omgeving te testen
  6. Vele verschillende datawarehousing-tools, frameworks en API's voor integratie, opslag, prestaties en analyse
Een persoon die grafieken op de laptop en gegevensrapporten op twee monitors analyseert
Laptopscherm met geopende grafieken

Tools, software en informatiebronnen voor datawarehouses

In de huidige gegevensgerichte wereld beschikken tal van grote softwarebedrijven over een ogenschijnlijk oneindig scala aan datawarehouse-software, elk met een eigen specifieke use-case. Het lijkt misschien ontmoedigend, maar om een samenhangende, hoogpresterende oplossing te kunnen bouwen, moet je in de juiste tools en technologieën investeren. Elke organisatie heeft andere behoeften, maar hier zijn enkele essentiële datawarehouse-producten om te overwegen:

Datawarehousing in de cloud en hybride cloud

Een geïntegreerde cloudoplossing voor datawarehousing, zoals Azure Synapse Analytics, geeft organisaties de mogelijkheid om sneller en goedkoper te schalen, te berekenen en op te slaan.

Tools voor gegevensintegratie

Met ETL-pijplijnen kunnen gebruikers hun werkstromen maken, plannen en organiseren, zodat brongegevens automatisch worden geïntegreerd, opgeschoond en gestandaardiseerd.

Objectopslag

Een oplossing voor objectopslag kan grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens bevatten, waardoor deze ideaal is voor het faseren van brongegevens voordat ze in de warehouse worden geladen.

Warehousing-tools

Een gedistribueerde opslagoplossing bevat grote verzamelingen gegevens in relationele tabellen met opslag in kolommen. Dit verlaagt de kosten aanzienlijk, verbetert de queryprestaties en verkort de tijd tot inzicht.

Prestatietools

Om de prestaties van je toepassingen te verbeteren, kun je Apache Spark opnemen: een opensource-framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking.

Beheer van resources en workloads

Een resourcemanager wijst rekenkracht toe aan je workloads, zodat je gegevens dienovereenkomstig kunt laden, analyseren, beheren en exporteren.

Gegevensmodellering

Met gegevensmodellering worden meerdere gegevensbronnen gecombineerd tot één semantisch model, wat een gestructureerde, gestroomlijnde weergave van je gegevens biedt.

Tools voor business intelligence

Tools voor bedrijfsanalyse helpen inzichten aan gebruikers te leveren in de vorm van dashboards, rapporten en andere visualisatietools.

Beveiligings- en privacyfuncties

Beveiligings- en compliancefuncties zoals gegevensversleuteling, gebruikersverificatie en toegangsbewaking zorgen ervoor dat je gegevens beschermd blijven.

Twee personen die iets bespreken, en de persoon rechts houdt een laptop vast

Wat is er gebeurd met Azure SQL Data Warehouse?

De mogelijkheden van Azure SQL Data Warehouse zijn nu een functie van Azure Synapse Analytics , die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun bestaande Azure SQL Data Warehouse-workloads blijven uitvoeren met behulp van de functie 'Toegewezen SQL-pool' in Azure Synapse Analytics zonder enige veranderingen te merken. Klanten kunnen ook hun bestaande warehouse-gegevens beginnen te beheren met Azure Synapse Analytics om te profiteren van geavanceerde analysefuncties zoals serverloze data lake-verkenning en geïntegreerde SQL- en Apache Spark™-engines.

Veelgestelde vragen

  • Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage, analyse en andere vormen van business intelligence.

  • Het gebruik van een datawarehouse heeft veel voordelen. Een datawarehouse consolideert bijvoorbeeld meerdere gegevensbronnen in één bron van waarheid, die organisaties vervolgens kunnen gebruiken om beter geïnformeerde beslissingen te nemen over zaken en activiteiten.

  • In datawarehouses worden gestructureerde en semi-gestructureerde gegevens opgeslagen, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere specifieke BI-use-cases. In data lakes worden verschillende soorten onbewerkte gegevens opgeslagen, die datawetenschappers vervolgens kunnen gebruiken voor verschillende projecten.

  • Een datawarehouse bestaat doorgaans uit meerdere lagen: de onderste laag, waar gegevens worden verzameld en opgeslagen; de middelste laag, waar gegevens worden geanalyseerd; en de bovenste laag, waar de gegevens worden weergegeven voor gebruikers om te openen en parseren.

  • Bij het ontwerpen en bouwen van een datawarehouse-infrastructuur is het belangrijk om rekening te houden met de aard van je gegevens en hoe je deze wilt transformeren. Enkele veelvoorkomende elementen van een typische uitbouw zijn gegevensbronnen, een faseringsgebied, de warehouse zelf, data marts, sandboxes en verschillende integratietools.

  • Veel grote softwarebedrijven beschikken nu over een breed scala aan datawarehouse-producten.

  • Deze mogelijkheden zijn nu een functie van Azure Synapse Analytics, die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun workloads hier blijven uitvoeren zonder enige veranderingen te merken.

Gratis account

Probeer cloud-computingservices van Azure 30 dagen gratis uit.

Betalen per gebruik

Ga aan de slag met betalen per gebruik. Je zit nergens aan vast: je kunt op elk gewenst moment opzeggen.