This is the Trace Id: ec9ce34fa303d83821240de341ba261d
Overslaan naar hoofdinhoud
Azure
Vier mensen die face-to-face iets bespreken met een presentatie op een laptop

Wat is een datawarehouse?

Ontdek wat een datawarehouse is, wat de voordelen zijn van het gebruik ervan, welke best practices je moet overwegen tijdens de ontwerpfase en welke tools je moet opnemen wanneer het eindelijk tijd is om de datawarehouse te bouwen.

    Wat is een datawarehouse?

    Laten we eerst definiëren wat een datawarehouse is en waarom je er een zou willen gebruiken voor je organisatie.

    Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage en analyse. De gegevens stromen binnen vanuit verschillende bronnen, zoals verkooppuntsystemen, bedrijfstoepassingen en relationele databasesrelationele databases, en worden meestal opgeschoond en gestandaardiseerd voordat ze in de warehouse terechtkomen. Omdat een datawarehouse grote hoeveelheden informatie kan opslaan, biedt het gebruikers gemakkelijke toegang tot een schat aan historische gegevens, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere vormen van business intelligence-rapportage.

    Twee personen controleren rapportgegevens in een tabel

    Voordelen van een datawarehouse

    Betrouwbare gegevens, met name wanneer ze in de loop van de tijd worden verzameld, helpen gebruikers om slimmere, beter geïnformeerde beslissingen te nemen over de manier waarop ze hun organisatie runnen – en datawarehouses maken dat mogelijk. Datawarehousing voor ondernemingen biedt talloze voordelen, maar enkele van de belangrijkste voordelen zijn:

    Datawarehouse versus data lake

    Het is duidelijk dat datawarehouses essentieel zijn voor de analysebewerkingen van elke organisatie. Maar wat is het verschil tussen een datawarehouse en andere soorten gegevensopslagplaatsen, zoals een data lake? En wanneer heeft de ene de voorkeur boven de andere?

    Als opslagplaatsen worden in zowel datawarehouses als data lakes gegevens opgeslagen en verwerkt. Hoewel ze dezelfde functionaliteit lijken te bieden, hebben ze echter elk hun eigen specifieke use-cases. Daarom nemen organisaties vaak beide systemen op om een volledige, end-to-end oplossing te vormen die aan vele verschillende behoeften kan voldoen.

    Een datawarehouse is relationeel van aard. Dit betekent dat de structuur of het schema van de gegevens wordt bepaald door vooraf gedefinieerde bedrijfs- en productvereisten die worden gecureerd, geconformeerd en geoptimaliseerd voor SQL-querybewerkingen. Als gevolg hiervan kunnen datawarehouses het beste worden gebruikt voor het opslaan van gegevens die met een specifiek doel in gedachten zijn behandeld, zoals gegevensanalyse voor BI-analyse of voor het verkrijgen van een zakelijke use-case die al is geïdentificeerd.

    Net als datawarehouses bevatten data lakes gestructureerde en semi-gestructureerde gegevens. Ze kunnen echter ook onbewerkte en niet-verwerkte gegevens uit verschillende niet-relationele bronnen herbergen, waaronder mobiele apps, IoT-apparaten, sociale media of streaming. Dit komt doordat de structuur of het schema in een data lake pas wordt gedefinieerd zodra de gegevens zijn gelezen. Als gevolg van hun flexibele, schaalbare aard worden data lakes vaak gebruikt voor het uitvoeren van intelligente vormen van gegevensanalyse, zoals machine learning.

    ondersteuningsplan voor de hele organisatie
    Data lake Datawarehouse
    Type

    Gestructureerd, semi-gestructureerd, ongestructureerd
    Relationeel, niet-relationeel

    Gestructureerd
    Relationeel

    Schema

    Schema bij lezen

    Schema bij schrijven

    Indeling

    Onbewerkt, ongefilterd

    Verwerkt, gecontroleerd

    Bronnen

    Big data, IoT, sociale media, streaminggegevens

    Toepassing, bedrijf, transactionele gegevens, batchrapportage

    Schaalbaarheid

    Gemakkelijk te schalen tegen lage kosten

    Moeilijk en duur om te schalen

    Gebruikers

    Datawetenschappers, data-engineers

    Datawarehouse-professionals, bedrijfsanalisten

    Use-cases

    Machine learning, predictive analytics, realtime analyse

    Kernrapportage, BI

    Een persoon zit op een stoel en werkt op een desktop

    Architectuur en ontwerp van de datawarehouse

    Nu je weet waarom en wanneer je een datawarehouse moet gebruiken, gaan we dieper in op hoe een datawarehouse werkt door te kijken naar het ontwerp van een datawarehouse. Een datawarehouse is meer dan alleen maar een enkele silo die zelfstandig werkt. Het is een zeer gestructureerd, zorgvuldig ontworpen systeem dat bestaat uit meerdere lagen die op verschillende manieren met je gegevens – en elkaar – communiceren. Deze lagen omvatten doorgaans:

    Onderste laag

    Gegevens worden opgenomen uit meerdere bronnen en vervolgens opgeschoond en getransformeerd om door andere toepassingen te worden gebruikt, in een proces dat ETL (Extract, Transform and Load) wordt genoemd. De onderste laag is ook waar gegevens worden opgeslagen en geoptimaliseerd, wat leidt tot kortere querytijden en betere prestaties in het algemeen.

    Middelste laag

    Hier vind je de analyse-engine, ook wel de OLAP-server (Online Analytical Processing) genoemd. OLAP-servers hebben met hoge snelheid toegang tot grote hoeveelheden gegevens uit de datawarehouse, wat leidt tot bliksemsnelle resultaten.

    Bovenste laag

    De bovenste laag is waar de front-end interface de verwerkte gegevens visueel presenteert, die analisten kunnen openen en gebruiken voor al hun rapportage- en selfservice-BI-behoeften.

    Een datawarehouse bouwen

    Bij het ontwerpen en bouwen van een datawarehouse is het belangrijk om rekening te houden met de doelen van je organisatie, zowel op de lange termijn als ad-hoc, evenals de aard van je gegevens. Hoeveel gegevensbronnen integreer je? Ben je van plan je werkstromen te automatiseren? Hoe ga je je gegevens verkennen en analyseren? Je uitbouw is afhankelijk van de complexiteit van je behoeften, maar een typische datawarehouse voor ondernemingen kan uit de volgende onderdelen bestaan:

    1. Gegevensbronnen die operationele gegevens extraheren uit verkooppuntsystemen, bedrijfstoepassingen en andere relationele databases
    2. Een faseringsgebied waar gegevens worden opgeschoond en getransformeerd voor de warehouse of centrale opslagplaats
    3. Een warehouse of centrale opslagplaats waarin verwerkte operationele gegevens, metagegevens, samenvattingsgegevens en onbewerkte gegevens worden opgeslagen voor gemakkelijke gebruikerstoegang
    4. De toevoeging van data marts, die gegevens uit de gecentraliseerde opslagplaats haalt en deze in subsets levert aan geselecteerde groepen gebruikers
    5. Een sandbox, die datawetenschappers kunnen gebruiken om nieuwe vormen van gegevensverkenning in een beveiligde omgeving te testen
    6. Vele verschillende datawarehousing-tools, frameworks en API's voor integratie, opslag, prestaties en analyse
    Een persoon die grafieken op de laptop en gegevensrapporten op twee monitors analyseert
    Laptopscherm met geopende grafieken

    Tools, software en informatiebronnen voor datawarehouses

    In de huidige gegevensgerichte wereld beschikken tal van grote softwarebedrijven over een ogenschijnlijk oneindig scala aan datawarehouse-software, elk met een eigen specifieke use-case. Het lijkt misschien ontmoedigend, maar om een samenhangende, hoogpresterende oplossing te kunnen bouwen, moet je in de juiste tools en technologieën investeren. Elke organisatie heeft andere behoeften, maar hier zijn enkele essentiële datawarehouse-producten om te overwegen:

    Datawarehousing in de cloud en hybride cloud

    Een geïntegreerde cloudoplossing voor datawarehousing, zoals Azure Synapse Analytics, geeft organisaties de mogelijkheid om sneller en goedkoper te schalen, te berekenen en op te slaan.

    Tools voor gegevensintegratie

    Met ETL-pijplijnen kunnen gebruikers hun werkstromen maken, plannen en organiseren, zodat brongegevens automatisch worden geïntegreerd, opgeschoond en gestandaardiseerd.

    Objectopslag

    Een oplossing voor objectopslag kan grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens bevatten, waardoor deze ideaal is voor het faseren van brongegevens voordat ze in de warehouse worden geladen.

    Warehousing-tools

    Een gedistribueerde opslagoplossing bevat grote verzamelingen gegevens in relationele tabellen met opslag in kolommen. Dit verlaagt de kosten aanzienlijk, verbetert de queryprestaties en verkort de tijd tot inzicht.

    Prestatietools

    Om de prestaties van je toepassingen te verbeteren, kun je Apache Spark opnemen: een opensource-framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking.

    Beheer van resources en workloads

    Een resourcemanager wijst rekenkracht toe aan je workloads, zodat je gegevens dienovereenkomstig kunt laden, analyseren, beheren en exporteren.

    Gegevensmodellering

    Met gegevensmodellering worden meerdere gegevensbronnen gecombineerd tot één semantisch model, wat een gestructureerde, gestroomlijnde weergave van je gegevens biedt.

    Tools voor business intelligence

    Tools voor bedrijfsanalyse helpen inzichten aan gebruikers te leveren in de vorm van dashboards, rapporten en andere visualisatietools.

    Beveiligings- en privacyfuncties

    Beveiligings- en compliancefuncties zoals gegevensversleuteling, gebruikersverificatie en toegangsbewaking zorgen ervoor dat je gegevens beschermd blijven.

    Twee personen die iets bespreken, en de persoon rechts houdt een laptop vast

    Wat is er gebeurd met Azure SQL Data Warehouse?

    De mogelijkheden van Azure SQL Data Warehouse zijn nu een functie van Azure Synapse Analytics , die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun bestaande Azure SQL Data Warehouse-workloads blijven uitvoeren met behulp van de functie 'Toegewezen SQL-pool' in Azure Synapse Analytics zonder enige veranderingen te merken. Klanten kunnen ook hun bestaande warehouse-gegevens beginnen te beheren met Azure Synapse Analytics om te profiteren van geavanceerde analysefuncties zoals serverloze data lake-verkenning en geïntegreerde SQL- en Apache Spark™-engines.

    Veelgestelde vragen

    • Een datawarehouse is een centrale opslagplaats met gestructureerde gegevens (databasetabellen, Excel-bladen) en semi-gestructureerde gegevens (XML-bestanden, webpagina's) voor rapportage, analyse en andere vormen van business intelligence.

    • Het gebruik van een datawarehouse heeft veel voordelen. Een datawarehouse consolideert bijvoorbeeld meerdere gegevensbronnen in één bron van waarheid, die organisaties vervolgens kunnen gebruiken om beter geïnformeerde beslissingen te nemen over zaken en activiteiten.

    • In datawarehouses worden gestructureerde en semi-gestructureerde gegevens opgeslagen, die kunnen worden gebruikt voor gegevensanalyse, gegevensvisualisatie en andere specifieke BI-use-cases. In data lakes worden verschillende soorten onbewerkte gegevens opgeslagen, die datawetenschappers vervolgens kunnen gebruiken voor verschillende projecten.

    • Een datawarehouse bestaat doorgaans uit meerdere lagen: de onderste laag, waar gegevens worden verzameld en opgeslagen; de middelste laag, waar gegevens worden geanalyseerd; en de bovenste laag, waar de gegevens worden weergegeven voor gebruikers om te openen en parseren.

    • Bij het ontwerpen en bouwen van een datawarehouse-infrastructuur is het belangrijk om rekening te houden met de aard van je gegevens en hoe je deze wilt transformeren. Enkele veelvoorkomende elementen van een typische uitbouw zijn gegevensbronnen, een faseringsgebied, de warehouse zelf, data marts, sandboxes en verschillende integratietools.

    • Veel grote softwarebedrijven beschikken nu over een breed scala aan datawarehouse-producten.

    • Deze mogelijkheden zijn nu een functie van Azure Synapse Analytics, die 'Toegewezen SQL-pool' heet. Bestaande Azure SQL Data Warehouse-klanten kunnen hun workloads hier blijven uitvoeren zonder enige veranderingen te merken.

    Gratis account

    Probeer cloud-computingservices van Azure 30 dagen gratis uit.

    Betalen per gebruik

    Ga aan de slag met betalen per gebruik. Je zit nergens aan vast: je kunt op elk gewenst moment opzeggen.