Hopp over navigasjon

Hva er et datalager?

Finn ut hva et datalager er, fordelene ved å bruke et, anbefalte fremgangsmåter å vurdere i utformingsfasen, og hvilke verktøy som skal innlemmes når det endelig er på tide å bygge.

Hva er et datalager?

Vi skal først definere hva et datalager er, og hvorfor du kanskje vil bruke et for organisasjonen.

Et datalager er et sentralisert repositorium som lagrer strukturerte data (databasetabeller, Excel-ark) og halvstrukturerte data (XML-filer, nettsider) for rapportering og analyse. Dataene flyter inn fra en rekke kilder, for eksempel salgsstedssystemer, forretningsprogrammer og relasjonsdatabaser, og de blir vanligvis renset og standardisert før de treffer lageret. Fordi et datalager kan lagre store mengder informasjon, gir det brukere enkel tilgang til en mengde historiske data som kan brukes til datautvinning, datavisualisering og andre former for rapportering av forretningsanalyse.

Fordeler med datalager

Pålitelige data, spesielt når de aggregeres over tid, hjelper brukere med å ta smartere og mer informerte beslutninger om hvordan de driver organisasjonen, og datalagre er det som gjør det mulig. Fordelene med datalagring i foretaksavtalen er enorme, men noen av de mest virkningsfulle fordelene inkluderer:

  • Konsolidere data fra flere kilder til én enkelt kilde til sannhet
  • Lagring og analyse av langsiktige historiske data som strekker seg over måneder og år
  • Rensing og transformering av data slik at de er nøyaktige, konsekvente og standardiserte i struktur og form
  • Redusere spørringstidene ved innsamling av data og behandlingsanalyse, noe som forbedrer den generelle ytelsen på tvers av systemer
  • Effektiv innlasting av data uten å måtte håndtere kostnadene ved distribusjon eller infrastruktur
  • Sikre data slik at de er private, beskyttede og trygge
  • Klargjør data for analyse gjennom datautvinning, visualiseringsverktøy og andre former for avansert analyse

Datalager kontra datasjø

Det er tydelig at datalagre er avgjørende for enhver organisasjons analyseoperasjoner. Men hva er forskjellen mellom et datalager og andre typer datarepositorier, for eksempel en datasjø? Og når skal den ene brukes over den andre?

Som repositorier lagrer og behandler både datalagre og datasjøer data. Selv om de kan se ut til å tilby samme funksjonalitet, har de hver sine egne bruksområder. Dette er grunnen til at organisasjoner vanligvis integrerer begge systemene for å danne en komplett ende-til-ende-løsning som kan håndtere et bredt spekter av formål.

Et datalager er relasjonelt av natur. Dette betyr at strukturen eller skjemaet til dataene bestemmes av forhåndsdefinerte forretnings- og produktkrav som er kuratert, konforme og optimaliserte for SQL-spørringsoperasjoner. Som et resultat av dette brukes datalagre best til å lagre data som har blitt behandlet med et bestemt formål i tankene, for eksempel datautvinning for BI-analyse, eller for å hente et forretningsbrukstilfelle som allerede er identifisert.

I likhet med datalagre inneholder datasjøer strukturerte og halvstrukturerte data. Likevel er de også i stand til å oppbevare rå og ubehandlede data fra en rekke ikke-relasjonelle kilder, inkludert mobilapper, IoT-enheter, sosiale medier eller strømming. Dette er fordi struktur eller skjema i en datasjø ikke er definert før dataene leses. Som et resultat av deres fleksible, skalerbare natur, brukes datasjøer ofte til å utføre intelligente former for dataanalyse, for eksempel maskinlæring.

Ikke tilgjengelig Datasjø Datalager
Type Strukturert, halvstrukturert, ustrukturert
Relasjonell, ikke-relasjonell
Strukturert
Relasjonelt
Schema Skjema ved lesing Skjema ved skriving
Format Rå, ufiltrert Behandlet, gjennomgått
Kilder Store data, IoT, sosiale medier, strømming av data Program, bedrift, transaksjonsdata, bunkerapportering
Skalerbarhet Enkel å skalere til en lav pris Vanskelig og kostbart å skalere
Brukere Dataforskere, datateknikere Datalagerfagfolk, forretningsanalytikere
Brukseksempler Maskinlæring, prediktiv analyse, sanntidsanalyse Kjernerapportering, BI

Arkitektur og utforming for datalager

Nå som du vet hvorfor og når du bør bruke et datalager, kan vi se nærmere på hvordan et fungerer ved å se på utformingen av datalageret. Et datalager er mer enn bare én enkelt silo som opererer på egen hånd. I stedet er det et svært strukturert, nøye konstruert system som består av flere nivåer som samhandler med dataene dine – og hverandre – på forskjellige måter. Disse nivåene omfatter vanligvis følgende:

Det nederste nivået

Data innhentes fra flere kilder, deretter renses og transformeres de for at andre programmer skal kunne bruke dem i en prosess som kalles uttrekking, transformering og innlasting (ETL). Det nederste nivået er også der data lagres og optimaliseres, noe som fører til raskere spørringstider og bedre ytelse generelt.

Midterste nivå

Her finner du analysemotoren, også kjent som OLAP-serveren (Online Analytical Processing). OLAP-servere får tilgang til store mengder data fra datalageret i høy hastighet, noe som fører til lynraske resultater.

Øverste nivå

Det øverste nivået er der frontgrensesnittet visuelt presenterer de behandlede dataene, som analytikere kan få tilgang til og bruke for alle deres rapporterings- og selvbetjente BI-behov.

Slik bygger du et datalager

Når du utformer og bygger et datalager er det viktig å vurdere målene for organisasjonen, både langsiktig og ad hoc, i tillegg til dataene dine. Hvor mange datakilder integrerer du? Har du tenkt å automatisere arbeidsflytene? Hvordan vil du utforske og analysere dataene dine? Utbyggingen varierer avhengig av kompleksiteten til behovene dine, men et typisk foretaks databaselager kan bestå av følgende komponenter:

  1. Datakilder somtrekk ut driftsdata fra salgsstedssystemer, forretningsprogrammer og andre relasjonsdatabaser
  2. Et oppsamlingsområde der dataene renses og transformeres for lageret eller sentralisert repositorium
  3. Et datalager eller sentralisert repositorium som lagrer behandlede driftsdata, metadata, sammendragsdata og rådata for enkel brukertilgang
  4. Tillegg av datatorg, som tar data fra det sentraliserte repositoriet og betjener dem i delsett til utvalgte grupper av brukere
  5. En sandkasse som dataforskere kan bruke til å teste nye former for datautforsking i et beskyttet miljø
  6. Et bredt utvalg av datalagerverktøy, rammeverk og API-er for integrering, lagring, ytelse og analyse

Datalagerverktøy, programvare og ressurser

I dagens datasentrerte verden har mange store programvareselskaper brukt et tilsynelatende uendelig utvalg av datalagerprogramvare, hver med sitt eget spesifikke brukstilfelle. Det kan virke overveldende, men for å bygge en sammenhengende løsning med høy ytelse, bør du investere i de riktige verktøyene og teknologiene. Alle organisasjonens behov er forskjellige, men her er noen viktige datalagerprodukter å se nærmere på:

Datalagring i skyen og hybrid sky

En enhetlig, skybasert datalagringsløsning, for eksempel Azure Synapse Analytics, gir organisasjoner muligheten til å skalere, beregne og lagre raskere og lavere kostnader.

Dataintegreringsverktøy

ETL-datasamlebånd gjør det mulig for brukere å opprette, planlegge og organisere arbeidsflytene sine slik at kildedata automatisk integreres, renses og standardiseres.

Objektlagring

En objektlagerløsning kan inneholde store mengder strukturerte, halvstrukturerte og ustrukturerte data, noe som gjør det perfekt for å sette opp kildedata før de lastes inn i lageret.

Lagringsverktøy

En distribuert lagringsløsning inneholder store sett med data i relasjonelle tabeller med kolonnebasert lagring. Dette reduserer kostnadene betydelig, forbedrer spørringsytelsen og gir raskere innsikt.

Ytelsesverktøy

Hvis du vil øke ytelsen til programmene dine, bør du inkludere Apache Spark, et parallellt behandlingsrammeverk med åpen kildekode som støtter minneintern behandling.

Administrasjon av ressurser og arbeidsbelastninger

En ressursleder tildeler databehandlingskraft til arbeidsbelastningene dine, slik at du kan laste inn, analysere, administrere og eksportere data i henhold til dette.

Datamodellering

Datamodellering kombinerer flere datakilder i én enkelt semantisk modell, noe som gir en strukturert, strømlinjeformet visning av dataene dine.

Verktøy for forretningsanalyse

Forretningsanalyseverktøy bidrar til å levere innsikt til brukere i form av instrumentbord, rapporter og andre visualiseringsverktøy.

Sikkerhets- og personvernfunksjoner

Sikkerhets- og samsvarsfunksjoner som datakryptering, brukergodkjenning og tilgangsovervåking sikrer at dataene dine forblir beskyttet.

Hva skjedde med Azure SQL Data Warehouse?

Funksjonene knyttet til Azure SQL Data Warehouse er nå en funksjon i Azure Synapse Analytics kalt dedikert SQL-utvalg. Eksisterende Azure SQL Data Warehouse-kunder kan fortsette å kjøre sine eksisterende Azure SQL Data Warehouse-arbeidsbelastninger ved hjelp av den dedikerte SQL-utvalgsfunksjonen i Azure Synapse Analytics uten å gå gjennom noen endringer. Kunder kan også begynne å administrere eksisterende lagerdata med Azure Synapse Analytics for å dra nytte av avanserte analysefunksjoner som serverløs datasjøutforskning og integrerte SQL- og Apache Spark™-motorer.

Vanlige spørsmål

  • Et datalager er et sentralisert depot som inneholder strukturerte data (databasetabeller, Excel-ark) og halvstrukturerte data (XML-filer, nettsider) for rapportering, analyse og andre former for forretningsanalyse.

    Mer informasjon om datalagre

  • Det er mange fordeler med å bruke et datalager. Et datalager konsoliderer for eksempel flere datakilder til én enkelt kilde til sannhet, som organisasjoner deretter kan bruke til å ta mer veloverveide beslutninger rundt forretninger og operasjoner.

    Utforsk ytterligere fordeler

  • Datalagre lagrer strukturerte og halvstrukturerte data, som kan brukes til kildedatautvinning, datavisualisering og andre spesifikke BI-brukstilfeller. Datasjøer lagrer ulike typer rådata, som dataforskere deretter kan bruke til å hente en rekke prosjekter.
  • Et datalager består vanligvis av flere nivåer: det nederste nivået der data samles inn og lagres, det midterste nivået der data analyseres, og det øverste nivået der dataene vises slik at brukere får tilgang til dem og gjennomføre analyser.

    Oppdag datalagerarkitekturer

  • Når du utformer og bygger infrastruktur for datalager, er det viktig å vurdere dataenes natur og hvordan du vil transformere dem. Noen vanlige elementer i en typisk utbygging inkluderer datakilder, et oppsamlingsområde, selve lageret, datatorg, sandkasser og ulike integreringsverktøy.

    Få tips om hvordan du bygger et datalager

  • Mange store programvareselskaper har nå et bredt utvalg av datalagerprodukter.

    Utforsk datalagerverktøy, programvare og ressurser

  • Disse egenskapene er nå en funksjon i Azure Synapse Analytics kalt dedikert SQL-gruppe. Eksisterende Azure SQL Data Warehouse-kunder kan fortsette å kjøre arbeidsbelastningene sine her uten å gå gjennom noen endringer.

    Mer informasjon om Azure SQL Data Warehouse

Kom i gang med en gratis konto i Azure

Gled deg over populære analysetjenester gratis i 12 måneder, mer enn 25 tjenester gratis alltid,  og $200 kreditt som skal brukes i de første 30 dagene.

Kontakt en Azure-selger

Få råd om hvordan du kommer i gang med analyse i Azure. Still spørsmål, lær om priser og anbefalte fremgangsmåter, og få hjelp til å utforme en løsning som dekker dine behov.

Kan vi hjelpe deg?