Hva er et datalager?
La oss først definere hva et datalager er, og hvorfor du kanskje vil bruke et for organisasjonen.
Et datalager er et sentralisert repositorium som lagrer strukturerte data (databasetabeller, Excel-ark) og halvstrukturerte data (XML-filer, nettsider) for rapportering og analyse. Dataene flyter inn fra en rekke kilder, for eksempel POS-systemer, forretningsprogrammer og relasjonsdatabaserrelasjonsdatabaser, og de blir vanligvis renset og standardisert før de treffer lageret. Fordi et datalager kan lagre store mengder informasjon, gir det brukere enkel tilgang til en mengde historiske data, som kan brukes til datautvinning, datavisualisering og andre former for rapportering av forretningsanalyse.
Fordeler med datalager
Pålitelige data, spesielt når de samles over tid, hjelper brukere med å ta smartere og mer informerte beslutninger om hvordan de driver organisasjonen— og datalagre er det som gjør dette mulig. Fordelene med datalagring for virksomheter er utallige, men noen av de mest virkningsfulle fordelene inkluderer:
-
Konsolidering av data fra flere kilder til én enkelt kilde til sannhet
-
Lagring og analyse av langsiktige historiske data som strekker seg over måneder og år
-
Rensing og transformering av data slik at de er nøyaktige, konsekvente og standardiserte i struktur og form
-
Redusering av spørringstidene ved innsamling av data og behandlingsanalyse, noe som forbedrer den generelle ytelsen på tvers av systemer
-
Effektiv innlasting av data uten å måtte håndtere kostnadene ved distribusjon eller infrastruktur
-
Sikring av data slik at de er private, beskyttede og trygge
-
Klargjøring av data for analyse gjennom datautvinning, visualiseringsverktøy og andre former for avansert analyse
Datalager kontra datasjø
Det er tydelig at datalagre er avgjørende for enhver organisasjons analyseoperasjoner. Men hva er forskjellen på et datalager og andre typer datarepositorier, for eksempel en datasjø? Og når skal den ene brukes over den andre?
Som repositorier både lagrer og behandler datalagre og datasjøer data. Selv om de kan se ut til å tilby samme funksjonalitet, har de hver sin egen brukssituasjon. Dette er grunnen til at organisasjoner vanligvis integrerer begge systemene for å danne en komplett ende-til-ende-løsning som kan håndtere et bredt spekter av formål.
Et datalager er relasjonelt av natur. Dette betyr at strukturen eller skjemaet til dataene bestemmes av forhåndsdefinerte forretnings- og produktkrav som er kuratert, konform og optimalisert for SQL-spørringsoperasjoner. Som et resultat av dette brukes datalagre best til å lagre data som har blitt behandlet med et bestemt formål i tankene, for eksempel datautvinning for BI-analyse eller for å hente et forretningsbrukstilfelle som allerede er identifisert.
I likhet med datalagre inneholder datasjøer strukturerte og halvstrukturerte data. Men de er også i stand til å ta hånd om rå og ubehandlede data fra en rekke ikke-relasjonelle kilder, inkludert mobilapper, IoT-enheter, sosiale medier eller strømming. Dette er fordi struktur eller skjema i en datasjø ikke er definert før dataene leses. Som et resultat av deres fleksible, skalerbare natur brukes datasjøer ofte til å utføre intelligente former for dataanalyse, for eksempel maskinlæring.
Datasjø | Datalager | |
---|---|---|
Type | Strukturert, halvstrukturert, ustrukturert | Strukturert |
Skjema | Skjema ved lesing | Skjema ved skriving |
Format | Rå, ufiltrert | Behandlet, gjennomgått |
Kilder | Stordata, IoT, sosiale medier, strømming av data | Program, bedrift, transaksjonsdata, bunkerapportering |
Skalerbarhet | Enkel å skalere til en lav pris | Vanskelig og dyrt å skalere |
Brukere | Dataforskere, datateknikere | Datalagerfagfolk, forretningsanalytikere |
Brukstilfeller | Maskinlæring, prediktiv analyse, sanntidsanalyse | Kjernerapportering, BI |
Arkitektur og utforming av datalager
Nå som du vet hvorfor og når du bør bruke et datalager, kan vi se nærmere på hvordan det fungerer ved å se på utformingen av datalageret. Et datalager er mer enn bare én enkelt silo som opererer på egen hånd. I stedet er det et svært strukturert, nøye konstruert system som består av flere nivåer som samhandler med dataene dine—og hverandre—på forskjellige måter. Disse nivåene omfatter vanligvis følgende:
Det nederste nivået
Data inntas fra flere kilder, deretter renses og transformeres de for at andre programmer skal kunne bruke dem i en prosess som kalles uttrekking, transformering og innlasting (ETL). Det nederste nivået er også der data lagres og optimaliseres, noe som fører til raskere spørringstider og bedre ytelse generelt.
Midterste nivå
Her finner du analysemotoren, også kjent som OLAP-serveren (Online Analytical Processing). OLAP-servere får tilgang til store mengder data fra datalageret i høy hastighet, noe som fører til lynraske resultater.
Øverste nivå
Det øverste nivået er der frontgrensesnittet visuelt presenterer de behandlede dataene, som analytikere kan få tilgang til og bruke for å dekke alle sine rapporterings- og selvbetjente BI-behov.
Slik bygger du et datalager
Når du utformer og bygger et datalager, er det viktig å vurdere målene for organisasjonen, både langsiktige og ad hoc, samt innholdet i dataene dine. Hvor mange datakilder integrerer du? Har du tenkt å automatisere arbeidsflytene? Hvordan vil du utforske og analysere dataene dine? Utbyggingen varierer avhengig av kompleksiteten i behovene dine, men et vanlig databaselager for virksomheter kan bestå av følgende komponenter:
- Datakilder som trekker ut driftsdata fra POS-systemer, forretningsprogrammer og andre relasjonsdatabaser
- Et oppsamlingsområde der data renses og transformeres for lageret eller et sentralisert repositorium
- Et lager eller sentralisert repositorium som lagrer behandlede driftsdata, metadata, sammendragsdata og rådata for enkel brukertilgang
- Tillegg av datatorg, som tar data fra det sentraliserte repositoriet og betjener det i delsett til utvalgte grupper av brukere
- En sandkasse, som dataforskere kan bruke til å teste nye former for datautforskning i et beskyttet miljø
- En rekke datalagringsverktøy, rammeverk og API-er for integrering, lagring, ytelse og analyse
Datalagerverktøy, programvare og ressurser
I dagens datasentrerte verden har mange store programvareselskaper brukt et tilsynelatende uendelig utvalg av datalagerprogramvare, hver med sitt eget spesifikke brukstilfelle. Det kan virke skremmende, men for å bygge en sammenhengende, høytytende løsning, bør du investere i de riktige verktøyene og teknologiene. Alle organisasjonens behov er forskjellige, men her er noen viktige datalagerprodukter du bør se nærmere på:
Datalagring i skyen og den hybride skyen
En enhetlig, skybasert datalagringsløsning, for eksempel Azure Synapse Analytics, gir organisasjoner muligheten til å skalere, beregne og lagre raskere og lavere kostnader.
Dataintegrasjonsverktøy
ETL-datasamlebånd gjør det mulig for brukere å opprette, planlegge og organisere arbeidsflytene sine slik at kildedata automatisk integreres, renses og standardiseres.
Objektlagring
En objektlagringsløsning kan inneholde store mengder strukturerte, halvstrukturerte og ustrukturerte data, noe som gjør den perfekt for å sette opp kildedata før de lastes inn i lageret.
Lagringsverktøy
En distribuert lagringsløsning inneholder store sett med data i relasjonstabeller med kolonnebasert lagring. Dette reduserer kostnadene betydelig, forbedrer spørringsytelsen og gir raskere innsikt.
Ytelsesverktøy
Hvis du vil øke ytelsen til programmene dine, bør du inkludere Apache SparkApache Spark, et parallellbehandlingsrammeverk med åpen kildekode som støtter minneintern behandling.
Administrasjon av ressurser og arbeidsbelastninger
En ressursbehandling tildeler databehandlingskraft til arbeidsbelastningene dine, slik at du kan laste inn, analysere, administrere og eksportere data i henhold til dette.
Datamodellering
Datamodellering kombinerer flere datakilder i én enkelt semantisk modell, noe som gir en strukturert, strømlinjeformet visning av dataene dine.
Forretningsanalyseverktøy
Forretningsanalyseverktøy bidrar til å levere innsikt til brukere i form av instrumentbord, rapporter og andre visualiseringsverktøy.
Sikkerhets- og personvernfunksjoner
Sikkerhets- og samsvarsfunksjoner som datakryptering, brukergodkjenning og tilgangsovervåking sikrer at dataene dine forblir beskyttet.
Hva skjedde med Azure SQL Data Warehouse?
Egenskapene knyttet til Azure SQL Data Warehouse, er nå en funksjon i Azure Synapse Analytics kalt dedikert SQL-utvalg. Eksisterende Azure SQL Data Warehouse-kunder kan fortsette å kjøre sine eksisterende Azure SQL Data Warehouse-arbeidsbelastninger ved hjelp av den dedikerte SQL-utvalgsfunksjonen i Azure Synapse Analytics uten å gå gjennom noen endringer. Kunder kan også begynne å administrere eksisterende lagerdata med Azure Synapse Analytics for å dra nytte av avanserte analysefunksjoner som serverløs utforskning av datasjøen og integrerte SQL- og Apache Spark-motorer™.
Vanlige spørsmål
-
Et datalager er et sentralisert repositorium som inneholder strukturerte data (databasetabeller, Excel-ark) og halvstrukturerte data (XML-filer, nettsider) for rapportering, analyse og andre former for forretningsanalyse.
-
Det er mange fordeler med å bruke et datalager. Et datalager konsoliderer for eksempel flere datakilder til én enkelt kilde til sannhet, som organisasjoner deretter kan bruke til å ta mer informerte beslutninger rundt forretninger og operasjoner.
-
Datalagre lagrer strukturerte og halvstrukturerte data, som kan brukes til kildedatautvinning, datavisualisering og andre spesifikke BI-brukstilfeller. Datasjøer lagrer ulike typer rådata, som dataforskere deretter kan bruke til å hente en rekke prosjekter.
-
Et datalager består vanligvis av flere nivåer: det nederste nivået, der data samles inn og lagres; det midterste nivået, der data analyseres, og det øverste nivået, der dataene vises slik at brukere kan få tilgang til og analysere gjennom dem.
-
Når du utformer og bygger infrastruktur for datalager, er det viktig å vurdere dataenes natur og hvordan du ønsker å transformere dem. Noen vanlige elementer i en typisk utbygging inkluderer datakilder, et oppsamlingsområde, selve lageret, data marts, sandkasser og ulike integreringsverktøy.
-
Mange store programvareselskaper dekker nå et bredt utvalg av datalagerprodukter.
-
Disse funksjonene er nå en funksjon i Azure Synapse Analytics kalt dedikert SQL-utvalg. Eksisterende Azure SQL Data Warehouse-kunder kan fortsette å kjøre arbeidsbelastningene sine her uten å gå gjennom noen endringer.
Tilleggsressurser
Gratis konto
Prøv tjenester innen Azure databehandling i skyen gratis i opptil 30 dager.
Forbruksbetaling
Kom i gang med forbruksbetaling. Ingen forhåndsforpliktelser – avbryt når som helst.