Navigatie overslaan

Wat is een datawarehouse?

Ontdek wat een datawarehouse is, wat de voordelen zijn van het gebruik van een datawarehouse, welke aanbevolen proceduren u moet overwegen tijdens de ontwerpfase en welke hulpprogramma's u moet opnemen wanneer het uiteindelijk tijd is om te bouwen.

Wat is een datawarehouse?

Een datawarehouse definiëren en waarom u een datawarehouse wilt gebruiken voor uw organisatie.

Een datawarehouse is een centrale opslagplaats waarin gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) worden opgeslagen voor rapportage en analyse. De gegevens stromen binnen vanuit verschillende bronnen, zoals verkooppuntsystemen, bedrijfstoepassingen en relationele databases. De gegevens worden meestal opgeschoond en gestandaardiseerd voordat het in het magazijn wordt gebracht. Omdat een datawarehouse grote hoeveelheden informatie kan opslaan, biedt het gebruikers eenvoudige toegang tot een schat aan historische gegevens, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere vormen van rapportage voor bedrijfsinformatie.

Voordelen van datawarehouse

Betrouwbare gegevens, met name wanneer ze in de loop van de tijd worden geaggregeerd, helpen gebruikers om slimmere, beter geïnformeerde beslissingen te nemen over de manier waarop ze hun organisatie uitvoeren en datawarehouses zijn wat dat mogelijk maakt. De voordelen van zakelijke datawarehousing zijn ontelbaar, maar enkele van de belangrijkste voordelen zijn:

  • Gegevens uit meerdere bronnen consolideren in één bron van waarheid
  • Historische gegevens op lange termijn opslaan en analyseren die maanden en jaren omvatten
  • Gegevens opschonen en transformeren zodat deze nauwkeurig, consistent en gestandaardiseerd zijn in structuur en vorm
  • Querytijden verminderen bij het verzamelen van gegevens en verwerkingsanalyses, waardoor de algehele prestaties in verschillende systemen worden verbeterd
  • Efficiënt gegevens laden zonder dat u te maken hebt met de kosten van implementatie of infrastructuur
  • Gegevens beveiligen zodat deze privé, beveiligd en veilig zijn
  • Gegevens voorbereiden voor analyse via gegevensanalyse, visualisatiehulpprogramma's en andere vormen van geavanceerde analyse

Datawarehouse versus data lake

Het is duidelijk dat datawarehouses essentieel zijn voor de analysebewerkingen van elke organisatie. Maar wat is het verschil tussen een datawarehouse en andere typen gegevensopslagplaatsen, zoals een data lake? En wanneer moet de ene over de andere worden gebruikt?

Als opslagplaatsen slaan datawarehouses en data lakes zowel gegevens op als dat ze het verwerken. Hoewel ze mogelijk dezelfde functionaliteit bieden, hebben ze elk hun eigen specifieke gebruiksvoorbeelden. Dit is de reden waarom organisaties vaak beide systemen opnemen om een volledige, end-to-end oplossing te vormen die een breed scala aan doeleinden kan verwerken.

Een datawarehouse is relationeel van aard. Dit betekent dat de structuur of het schema van de gegevens wordt bepaald door vooraf gedefinieerde bedrijfs- en productvereisten die worden gecureerd, voldaan en geoptimaliseerd voor SQL-querybewerkingen. Als gevolg hiervan kunnen datawarehouses het beste worden gebruikt voor het opslaan van gegevens die met een specifiek doel in gedachten zijn behandeld, zoals gegevensanalyse voor BI-analyse of voor het verkrijgen van een bedrijfsgebruikscase die al is geïdentificeerd.

Net als datawarehouses bevatten data lakes gestructureerde en semi-gestructureerde gegevens. Ze kunnen echter ook onbewerkte en niet-verwerkte gegevens uit verschillende niet-relationele bronnen verwerken, waaronder mobiele apps, IoT-apparaten, sociale media of streaming. Dit komt doordat de structuur of het schema in een data lake pas wordt gedefinieerd als de gegevens zijn gelezen. Als gevolg van hun flexibele, schaalbare aard worden data lakes vaak gebruikt voor het uitvoeren van intelligente vormen van gegevensanalyse, zoals machine learning.

Niet beschikbaar Data lake Datawarehouse
Type Gestructureerd, semi-gestructureerd, ongestructureerd
Relationeel, niet-relationeel
Gestructureerd
Relationeel
Schema Schema bij lezen Schema bij schrijven
Notatie Onbewerkt, niet gefilterd Verwerkt, gecontroleerd
Bronnen Big data, IoT, sociale media, streaminggegevens Toepassing, bedrijf, transactionele gegevens, batchrapportage
Schaalbaarheid Eenvoudig te schalen tegen lage kosten Moeilijk en duur om te schalen
Gebruikers Gegevenswetenschappers, gegevenstechnici Datawarehouse-professionals, bedrijfsanalisten
Gebruikscases Machine learning, predictive analytics, realtime analyse Kernrapportage, BI

Architectuur en ontwerp van datawarehouse

Nu u weet waarom en wanneer u een datawarehouse moet gebruiken, gaan we dieper in op hoe een datawarehouse werkt door te kijken naar het ontwerp van een datawarehouse. Een datawarehouse is meer dan slechts één silo die zelfstandig werkt. In plaats daarvan is het een zeer gestructureerd, zorgvuldig ontworpen systeem dat bestaat uit meerdere lagen die op verschillende manieren met uw gegevens, en elkaar, communiceren. Deze lagen omvatten doorgaans:

De onderste laag

Gegevens worden opgenomen uit meerdere bronnen en vervolgens opgeschoond en getransformeerd zodat andere toepassingen kunnen worden gebruikt in een proces dat ETL (extract, transform, and load) wordt genoemd. De onderste laag is ook waar gegevens worden opgeslagen en geoptimaliseerd, wat leidt tot snellere querytijden en betere prestaties in het algemeen.

Middelste laag

Hier vindt u de analyse-engine, ook wel de OLAP-server (Online Analytical Processing) genoemd. OLAP-servers hebben met hoge snelheid toegang tot grote hoeveelheden gegevens uit het datawarehouse, wat leidt tot bliksemsnelle resultaten.

Bovenste laag

De bovenste laag is waar de front-end-interface de verwerkte gegevens visueel presenteert, die analisten kunnen openen en gebruiken voor al hun rapportage- en selfservice-BI-behoeften.

Een datawarehouse bouwen

Wanneer u een datawarehouse ontwerpt en bouwt, is het belangrijk om rekening te houden met de doelstellingen van uw organisatie, zowel op de lange termijn als ad-hoc, als op de aard van uw gegevens. Hoeveel gegevensbronnen wilt u integreren? Bent u van plan uw werkstromen te automatiseren? Hoe gaat u uw gegevens verkennen en analyseren? Uw build-out is afhankelijk van de complexiteit van uw behoeften, maar een typisch databasewarehouse voor ondernemingen kan bestaan uit de volgende onderdelen: :

  1. Databronnen die operationele gegevens extraheren van point-of-sale-systemen, bedrijfstoepassingen en andere relationele databases
  2. Een bewaargebied waar gegevens worden opgeschoond en getransformeerd voor het magazijn of de gecentraliseerde opslagplaats
  3. A warehouse of centrale opslagplaats waarin verwerkte operationele gegevens worden opgeslagen, metagegevens, samenvattingsgegevens, en onbewerkte gegevens voor eenvoudige gebruikerstoegang
  4. De toevoeging van datamarters, die gegevens uit de gecentraliseerde opslagplaats haalt en deze in subsets levert aan geselecteerde groepen gebruikers
  5. Een sandbox, welke gegevenswetenschappers kunnen gebruiken om nieuwe vormen van gegevensverkenning te testen in een beveiligde omgeving
  6. Een groot aantal datawarehousing-hulpprogramma's, frameworks en API's voor integratie, opslag, prestaties en analyse

Datawarehouse-hulpprogramma's, software en resources

In de huidige gegevensgerichte wereld beschikken tal van grote softwarebedrijven over een oneindig scala aan datawarehouse-software, elk met een eigen specifieke gebruikscase. Het lijkt misschien lastig, maar als u een samenhangende oplossing met hoge prestaties wilt bouwen, moet u investeren in de juiste hulpprogramma's en technologieën. De behoeften van elke organisatie verschillen, maar hier zijn enkele essentiële datawarehouse-producten om in te kijken:

Datawarehousing in de cloud en hybride cloud

Een geïntegreerde cloudoplossing voor datawarehousing, zoals Azure Synapse Analytics, biedt organisaties de mogelijkheid om sneller en goedkoper te schalen, te berekenen en op te slaan.

Hulpprogramma's voor gegevensintegratie

Met ETL-pijplijnen kunnen gebruikers hun werkstromen maken, plannen en organiseren, zodat brongegevens automatisch worden geïntegreerd, opgeschoond en gestandaardiseerd.

Objectopslag

Een oplossing voor objectopslag kan grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens bevatten, waardoor deze ideaal is voor fasering van brongegevens voordat deze in het magazijn worden geladen.

Magazijnhulpprogramma's

Een gedistribueerde opslagoplossing bevat grote sets gegevens in relationele tabellen met kolomopslag. Dit verlaagt de kosten aanzienlijk, verbetert de queryprestaties en versnelt de tijd tot inzicht.

Prestatiehulpprogramma's

Om de prestaties van uw toepassingen te verbeteren, kunt u Apache Spark, een opensource-framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking, opnemen.

Resource- en workloadbeheer

Een resourcemanager wijst rekenkracht toe aan uw workloads, zodat u gegevens dienovereenkomstig kunt laden, analyseren, beheren en exporteren.

Gegevensmodellering

Met gegevensmodellering worden meerdere gegevensbronnen gecombineerd tot één semantisch model, wat een gestructureerde, gestroomlijnde weergave van uw gegevens biedt.

Hulpprogramma's voor business intelligence

Hulpprogramma's voor bedrijfsanalyse helpen gebruikers inzichten te leveren in de vorm van dashboards, rapporten en andere visualisatiehulpprogramma's.

Beveiligings- en privacyfuncties

Beveiligings- en nalevingsfuncties zoals gegevensversleuteling, gebruikersverificatie en toegangsbewaking zorgen ervoor dat uw gegevens beveiligd blijven.

Wat is er gebeurd met Azure SQL Data Warehouse?

De mogelijkheden die zijn gekoppeld aan Azure SQL Data Warehouse zijn nu een functie van Azure Synapse Analytics, genaamd de toegewezen SQL-pool. Bestaande Azure SQL Data Warehouse-klanten kunnen hun bestaande Azure SQL Data Warehouse-workloads blijven uitvoeren met behulp van de toegewezen SQL-poolfunctie in Azure Synapse Analytics zonder wijzigingen door te voeren. Klanten kunnen ook beginnen met het beheren van hun bestaande warehouse-gegevens met Azure Synapse Analytics om te profiteren van geavanceerde analysefuncties zoals serverloze data lake verkenning en geïntegreerde SQL- en Apache Spark-engines™.

Veelgestelde vragen

  • Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage, analyse en andere vormen van bedrijfsinformatie.

    Meer informatie over datawarehouses

  • Er zijn veel voordelen van het gebruik van een datawarehouse. Een datawarehouse consolideert bijvoorbeeld meerdere gegevensbronnen in één bron van waarheid, die organisaties vervolgens kunnen gebruiken om beter onderbouwde beslissingen te nemen met betrekking tot bedrijfsactiviteiten.

    Verken de extra voordelen

  • Datawarehouses slaan gestructureerde en semi-gestructureerde gegevens op, die kunnen worden gebruikt voor het analyseren van gegevens, gegevensvisualisatie en andere specifieke BI-gebruikscases. Data lakes slaan verschillende soorten onbewerkte gegevens op, die gegevenswetenschappers vervolgens kunnen gebruiken om verschillende projecten te maken.
  • Een datawarehouse bestaat doorgaans uit meerdere lagen: de onderste laag, waar gegevens worden verzameld en opgeslagen; de middelste laag, waar gegevens worden geanalyseerd; en de bovenste laag, waar de gegevens worden weergegeven voor gebruikers om toegang te krijgen tot en te parseren via.

    Ontdek datawarehouse-ontwerpen

  • Wanneer u een datawarehouse-infrastructuur ontwerpt en bouwt, is het belangrijk om na te denken over de aard van uw gegevens en hoe u deze wilt transformeren. Enkele veelvoorkomende elementen van een typische build-out zijn gegevensbronnen, een faseringsgebied, het warehouse zelf, datamarts, sandboxes en verschillende integratiehulpprogramma's.

    Tips krijgen over het bouwen van een datawarehouse

  • Veel grote softwarebedrijven beschikken nu over een breed scala aan datawarehouse-producten.

    Ontdek hulpprogramma's, software en resources voor datawarehouses

  • Deze mogelijkheden zijn nu een functie van Azure Synapse Analytics, genaamd de toegewezen SQL-pool. Bestaande Azure SQL Data Warehouse-klanten kunnen hun workloads hier blijven uitvoeren zonder wijzigingen door te voeren.

    Meer informatie over Azure SQL Data Warehouse

Aan de slag met een gratis Azure-account

Profiteer van populaire analyseservices die 12 maanden gratis zijn, meer dan 25 services die altijd gratis zijn en $200tegoed om tijdens uw eerste 30 dagen te besteden.

Neem contact op met een Azure-verkoopspecialist

Krijg advies over het aan de slag gaan met analyses in Azure. Stel vragen, kom meer te weten over prijzen en aanbevolen procedures, en vraag hulp bij het ontwerpen van een oplossing die aan uw behoeften voldoet.

Kunnen we u helpen?