Hvad er et data warehouse?
Lad os først definere, hvad et data warehouse er, og hvorfor du bør overveje det til din organisation.
Et data warehouse er et centraliseret lager, der gemmer strukturerede data (databasetabeller, Excel-ark) og semistrukturerede data (XML-filer, websider) med henblik på rapportering og analyse. Dataene strømmer ind fra en række forskellige kilder, såsom POS-systemer, virksomhedsapplikationer og relationsdatabaser, og de er normalt renset og standardiseret, inden de rammer lageret. Et data warehouse kan gemme store mængder information, og derfor giver det brugerne nem adgang til et væld af historiske data, som kan bruges til data mining, datavisualisering og andre former for business intelligence-rapportering.
Fordele ved et data warehouse
Pålidelige data kan, især når de er samlet over tid, hjælpe brugerne med at træffe smartere og mere informerede beslutninger om, hvordan de driver deres organisation – og det er data warehouses, der gør det muligt. Fordelene ved et data warehouse til virksomhedsdata er utallige, men nogle af de mest virkningsfulde fordele er bl.a.:
-
Konsolidering af data fra flere kilder til én enkelt sandhedskilde
-
Lagring og analyse af langsigtede historiske data, der dækker måneder og år
-
Rensning og transformation af data, så de er nøjagtige, konsistente og standardiserede i struktur og form
-
Reduktion af forespørgselstid under indsamling af data og behandling af analyser, hvilket forbedrer den samlede ydeevne på tværs af systemer
-
Effektiv indlæsning af data uden at skulle håndtere omkostningerne ved udrulning eller infrastruktur
-
Sikring af data, så de er private, beskyttede og sikre
-
Klargøring af data til analyse med datamining, visualiseringsværktøjer og andre former for avanceret analyse
Sammenlign data warehouse og datasø
Det er klart, at data warehouses er afgørende for enhver organisations analyseoperationer. Men hvad er forskellen mellem et data warehouse og andre typer datalagre, såsom en datasø? Og hvornår skal det ene bruges fremfor det andet?
Et data warehouse og en datasø kan begge gemme og behandle data. Men selvom de ser ud til at have samme funktionalitet, har de hver deres brugsscenarier. Det er derfor, organisationer som regel inkorporerer begge systemer for at opnå en komplet, end-to-end-løsning, der kan håndtere en lang række formål.
Et data warehouse er relationelt. Det betyder, at dataenes struktur eller skema bestemmes af foruddefinerede forretnings- og produktkrav, der kureres, tilpasses og optimeres til SQL-forespørgselsoperationer. Derfor er fungeret et data warehouse bedst til at gemme data, der er behandlet med et specifikt formål for øje, herunder datamining til BI-analyse, eller til at finde et brugsscenarier, der allerede er blevet identificeret.
Ligesom et data warehouse rummer en datasø strukturerede og semistrukturerede data. De kan dog også rumme rå og ubehandlede data fra en række ikke-relationelle kilder, herunder mobilapps, IoT-enheder, sociale medier eller streaming. Det skyldes, at strukturer eller skemaer i en datasø ikke defineres, før dataene er læst. Fordi de er fleksible og skalerbare bruges datasøer ofte til at udføre intelligente former for dataanalyse, såsom maskinlæring.
Datasø | Data warehouse | |
---|---|---|
Type | Strukturerede, halvstrukturerede, ustrukturerede | Struktureret |
Skema | Skema i læsetilstand | Skema i skrivetilstand |
Format | Rå, ufiltreret | Behandlet, godkendt |
Kilder | Big data, IoT, sociale medier, streamingdata | Applikation, erhverv, transaktionsdata, batch-rapportering |
Skalerbarhed | Nemme og prisvenlige at skalere | Vanskelige og dyre at skalere |
Brugere | Dataloger, dataudviklere | Data warehouse-eksperter, driftsøkonomer |
Brugseksempler | Machine Learning – prædikative analyser, forudsigende analyse | Kernerapportering, BI |
Data warehouse-arkitektur og -design
Nu hvor du ved, hvorfor og hvornår du skal bruge et data warehouse, kan vi kigge på, hvordan de fungerer ved at se på design af data warehouses. Et data warehouse er mere end blot en enkelt silo, der fungerer separat. Det er snarere et meget struktureret, omhyggeligt tegnet system, som består af flere niveauer, der interagerer med dine data – og hinanden – på forskellige måder. Disse niveauer vil typisk være:
Det nederste lag
Data optages fra flere kilder, renses og transformeres, så andre applikationer kan bruge dem i en proces kaldet ETL (extract, transform and load). Det nederste niveau er også der, hvor data gemmes og optimeres, hvilket giver hurtigere forespørgselstider og generelt bedre ydeevne.
Det mellemste lag
Det er her, du finder analysemotoren, også kendt som OLAP-serveren (online analytical processing). OLAP-servere tilgår store mængder data fra et data warehouse med høj hastighed, hvilket giver lynhurtige resultater.
Det øverste lag
Det øverste lag er der, hvor front-end-grænsefladen visuelt præsenterer de behandlede data, som analytikere kan tilgå og bruge til rapportering og selvbetjenings-BI.
Sådan udvikler man et data warehouse
Når du designer og udvikler et datavarehus, skal du overveje målene for din organisation, både på langt sigt og ad-hoc, samt din datatype. Hvor mange datakilder skal du integrere? Har du planer om at automatisere dine arbejdsprocesser? Hvordan vil du udforske og analysere dine data? Din opbygning vil variere afhængigt af, hvor komplekse dine behov er. Et typisk enterprise-data warehouse kunne f.eks. bestå af følgende komponenter:
- Datakilder, som udtrækker driftsdata fra POS-systemer, erhvervsapplikationer og andre relationelle databaser
- Et midlertidig lagringsområde, hvor data renses og translaformere til det centrale lager i det pågældende data warehouse
- Et warehouse eller centralt lager, som gemmer behandlede driftsdata, metadata, oversigtsdata og rådata for nem brugeradgang
- Tilføjelsen af data marts, som tager data fra det centrale lager og leverer dem i undersæt til udvalgte grupper af brugere
- En sandkasse, som dataloger kan bruge til at teste nye former for dataudforskning i et beskyttet miljø
- Et bredt udvalg af data warehouse-værktøjer, frameworks og API's til integration, lagring, performance og analyse
Værktøjer, software og ressourcer til data warehouses
I vores datafokuserede verden har mange af de store softwarevirksomheder et tilsyneladende uendeligt udvalg af software til data warehouses med hver deres brugsscenarie. Det kan være overvældende, men for at udvikle en sammenhængende løsning med høj ydeevne, skal du investere i de rigtige værktøjer og teknologier. Organisationer har vidt forskellige behov, men her er nogle vigtige data warehouse-produkter at se nærmere på:
Data warehousing til cloud og hybridcloud
En samlet, skybaseret data warehousing-løsning som f.eks. Azure Synapse Analytics giver organisationer mulighed for at skalere, beregne og gemme hurtigere og med lavere omkostninger.
Værktøjer til dataintegration
ETL-pipelines gør det muligt for brugere at oprette, planlægge og orkestrere deres arbejdsprocesser, så kildedata automatisk integreres, renses og standardiseres.
Objektlagring
Løsninger til objektlagring kan rumme store mængder strukturerede, semistrukturerede og ustrukturerede data, hvilket gør dem perfekt til at behandle kildedata, før de overføres til et warehouse.
Warehouse-værktøj
En distribueret lagringsløsning kan rumme store datasæt i relationelle tabeller med kolonnelagring. Dette sænker omkostningerne betydeligt, forbedrer forespørgselsydeevnen og giver hurtigere adgang til indsigter.
Ydeevneværktøjer
For at øge ydeevnen af dine applikationer kan det være en god ide at inkorporere Apache Spark, et open source-baseret framework til parallel behandling, der understøtter lokal hukommelsesbehandling.
Administration af ressourcer og arbejdsbelastning
En ressourceadministrator tildeler computerkraft til dine arbejdsbelastninger, så du kan indlæse, analysere, administrere og eksportere data i overensstemmelse hermed.
Datamodellering
Datamodellering kombinerer flere datakilder til en enkelt semantisk model, hvilket giver et struktureret, strømlinet overblik over dine data.
Business intelligence værktøjer
Værktøjer til virksomhedsanalyse giver brugere indsigt i form af dashboards, rapporter og andre visualiseringsværktøjer.
Funktioner til sikkerhed og beskyttelse af personlige oplysninger
Funktioner til sikkerhed og overholdelse af angivne standarder såsom datakryptering, brugergodkendelse og adgangsovervågning sikrer dine data.
Hvad skete der med Azure SQL Data Warehouse?
Funktionerne fra Azure SQL Data Warehouse er nu inkorporeret i Azure Synapse Analytics og kaldes dedikeret SQL-gruppe. Eksisterende Azure SQL Data Warehouse-kunder kan fortsætte med at køre deres nuværende Azure SQL Data Warehouse-arbejdsbelastninger ved hjælp af den dedikerede SQL-gruppefunktion i Azure Synapse Analytics uden ændringer. Kunder kan også begynde at administrere deres eksisterende lagerdata med Azure Synapse Analytics for at drage fordel af avancerede analysefunktioner såsom serverløs udforskning af datasøer og integrerede motorer til SQL og Apache Spark™.
Ofte stillede spørgsmål
-
Et data warehouse er et centraliseret lager, der indeholder strukturerede data (databasetabeller, Excel-ark) og semistrukturerede data (XML-filer, websider) med henblik på rapportering, analyse og andre former for business intelligence.
-
Der er mange fordele ved at bruge et data warehouse. For eksempel konsoliderer et data warehouse flere datakilder til en enkelt sandhedskilde, som organisationer derefter kan bruge til at træffe mere informerede beslutninger omkring forretning og drift.
-
Data warehouses gemmer strukturerede og semi-strukturerede data, som kan bruges til datamining, datavisualisering og andre specifikke BI-brugsscenarier. Datasøer gemmer forskellige typer rådata, som dataloger derefter kan bruge til forskellige projekter.
-
Et data warehouse er typisk sammensat af flere lag: det nederste lag, hvor data indsamles og lagres; det midterste lag, hvor data analyseres; og det øverste lag, hvor dataene vises, så brugerne kan få adgang til dem og analysere dem.
-
Når du designer og udvikler infrastruktur til data warehouses, er det vigtigt at overveje din datatype, og hvordan du gerne vil transformere dem. Elementer i en typisk opbygning kunne f.eks. være datakilder, et område til midlertidig lagring, et warehouse, datacentre, sandkasser og forskellige integrationsværktøjer.
-
Mange store softwarevirksomheder kan nu tilbyde en bred vifte af data warehouse-produkter.
-
Disse funktioner er nu integreret i Azure Synapse Analytics kaldet dedikeret SQL-gruppe. Eksisterende Azure SQL Data Warehouse-kunder kan fortsætte med at køre deres arbejdsbelastninger her uden ændringer.
Flere ressourcer
Pay as you go (betal efter forbrug)
Kom i gang med priser, der betales efter forbrug. Der er ingen forudgående forpligtelser – du kan annullere når som helst.