Datawarehouse op bedrijfsniveau

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Oplossingsideeën

Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.

In dit artikel vindt u een oplossing voor een datawarehouse voor ondernemingen in Azure dat:

  • Brengt al uw gegevens samen, ongeacht de schaal of indeling.
  • Biedt alle gebruikers een manier om inzicht te krijgen in uw gegevens via analytische dashboards, operationele rapporten en geavanceerde analyses.

Apache en Apache® Spark zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Architectuur

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Azure Synapse Analytics-pijplijnen brengen gestructureerde, ongestructureerde en semi-gestructureerde gegevens samen, zoals logboeken, bestanden en media. De pijplijnen slaan de gegevens op in Azure Data Lake Storage.
  2. Apache Spark-pools in Azure Synapse Analytics schonen en transformeren de Data Lake Storage-gegevens.
  3. Azure Synapse Analytics combineert de verwerkte gegevens met bestaande gestructureerde gegevens, waardoor één geïntegreerde gegevenshub wordt gemaakt.
  4. Een toegewezen SQL-pool maakt de gegevens beschikbaar voor operationele rapporten en analytische dashboards die inzichten afleiden. Azure Analysis Services dient de rapporten en dashboards voor duizenden eindgebruikers.

Onderdelen

  • Azure Synapse Analytics is een analyseservice voor datawarehouses en big data-systemen. Dit hulpprogramma maakt gebruik van een zeer parallelle verwerkingsarchitectuur en heeft een diepe integratie met Azure-services.
  • Azure Synapse Analytics-pijplijnen bieden een manier voor het maken, plannen en organiseren van werkstromen, zoals extraheren, laden, transformeren (ELT) en ETL-werkstromen (extraheren, transformeren, laden).
  • Azure Blob Storage biedt zeer schaalbare, rendabele objectopslag voor elk type ongestructureerde gegevens: afbeeldingen, video's, audio, documenten en meer.
  • Data Lake Storage is een opslagopslagplaats met een grote hoeveelheid gegevens in de oorspronkelijke, onbewerkte indeling. Data Lake Storage is gebouwd op Blob Storage. Als gevolg hiervan biedt Data Lake Storage de schaalbaarheid, gelaagde opslag, hoge beschikbaarheid en mogelijkheden voor herstel na noodgevallen van Blob Storage.
  • Azure Synapse Analytics Spark-pools bieden een framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van analysetoepassingen voor big data te verbeteren.
  • Analysis Services is een analyse-engine op ondernemingsniveau die gebruikers een eenvoudige manier biedt om ad-hocgegevensanalyses uit te voeren. U kunt Analysis Services gebruiken om bedrijfsoplossingen op schaal te beheren, te testen en te leveren.
  • Power BI is een suite met hulpprogramma's voor zakelijke analyses die inzichten bieden in uw hele organisatie. U kunt Power BI gebruiken om verbinding te maken met honderden gegevensbronnen, het voorbereiden van gegevens te vereenvoudigen en ad-hocanalyse te stimuleren. U kunt ook prachtige rapporten produceren en publiceren voor uw organisatie om op internet en op mobiele apparaten te gebruiken.

Scenariodetails

Een datawarehouse voor ondernemingen brengt al uw gegevens samen, ongeacht de bron, indeling of schaal. Een datawarehouse biedt u ook een manier om krachtige analyses uit te voeren op uw gegevens, zodat u inzicht kunt krijgen via analytische dashboards, operationele rapporten en geavanceerde analyses.

Met deze oplossing wordt een datawarehouse vastgesteld dat:

  • Is één bron van waarheid voor uw gegevens.
  • Integreert relationele gegevensbronnen met andere ongestructureerde gegevenssets.
  • Maakt gebruik van semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.

Voor het integreren van gegevens in een geïntegreerd platform maakt deze oplossing gebruik van Azure Synapse Analytics-pijplijnen. Deze pijplijnen bieden ELT- en ETL-mogelijkheden. U kunt de pijplijnen gebruiken om gegevens in gegevensgestuurde werkstromen te verplaatsen. De pijplijnen werken met verschillende gegevensindelingen en -structuren.

De pijplijnen slaan de gegevens op in Data Lake Storage, die is gebouwd op Blob Storage. Deze opslagservice kan grote hoeveelheden ongestructureerde gegevens verwerken.

Azure Synapse Analytics Spark-pools vormen een belangrijk onderdeel van de oplossing. Met deze pools worden gegevens opgeschoond en getransformeerd die zijn opgeslagen in Azure. Hun framework voor parallelle verwerking ondersteunt in-memory verwerking voor snelheid en efficiëntie. De pools ondersteunen ook automatisch schalen, zodat ze indien nodig knooppunten kunnen toevoegen of verwijderen.

Een toegewezen SQL-pool maakt de verwerkte gegevens beschikbaar voor analyses met hoge prestaties. Deze pool slaat gegevens op in relationele tabellen met kolomopslag, een indeling die de kosten van gegevensopslag aanzienlijk verlaagt. Het verbetert ook de queryprestaties, zodat u analyses op grote schaal kunt uitvoeren.

Potentiële gebruikscases

U kunt deze oplossing gebruiken in scenario's zoals de volgende die betrekking hebben op grote hoeveelheden gegevens:

  • IoT-apparaatintegratie
  • Platformen voor klantgegevens
  • Natuurlijke taalverwerking
  • Machine learning-algoritmen

Prijzen

Als u een schatting van de kosten van deze oplossing wilt bekijken, raadpleegt u een prijsvoorbeeld in de prijscalculator.

Volgende stappen