Gå til hovedindhold

Hvad er en datasø?

Få mere at vide om forskellen mellem datasøer og data warehouses. Se, hvordan du skaber et skalerbart fundament for alle dine analyser med Azure.

Definition af datasø

I denne introduktionsvejledning udforskes de mange fordele og use cases ved en datasø. Få mere at vide om, hvad en datasø er, hvorfor det er vigtigt, og find forskellen mellem datasøer og data warehouses. Men lad os først definere datasø som et begreb.

En datasø er et centraliseret lager, der henter og gemmer store mængder data i sin oprindelige form. Dataene kan derefter behandles og bruges som basis for en række forskellige analysebehov. På grund af den åbne skalerbare arkitektur kan en datasø rumme alle typer data fra enhver kilde, fra strukturerede (databasetabeller, Excel-ark) til delvist strukturerede (XML-filer, websider) til ustrukturerede (billeder, lydfiler, tweets), alt sammen uden at gå på kompromis med pålideligheden. Datafilerne gemmes typisk i faseinddelte zoner – rå, renset og organiseret – så forskellige typer brugere kan bruge dataene i deres forskellige former til at opfylde deres behov. Datasøer giver kernedatakonsistens på tværs af en række programmer, styrke big big data-analyse, maskinel indlæring learning, forudsigende analyse og andre former for intelligent handling.

Hvorfor er datasøer vigtige for virksomheder?

Dagens yderst forbundne, indsigtsdrevne verden ville ikke være mulig uden opfindelsen af datasøløsninger. Det skyldes, at organisationer er afhængige af omfattende datasøplatforme, såsom Azure Data Lake, til at holde rå data konsolideret, integreret, sikker og tilgængelig. Skalerbare lagerværktøjer som f.eks. Azure Data Lake Storage kan indeholde og beskytte data på ét centralt sted, hvilket eliminerer siloer til en optimal pris. Dette skaber grundlag for, at brugerne kan udføre en lang række arbejdsbelastningskategorier, f.eks. behandling af big data, SQL-forespørgsler, tekstmining, streaminganalyser og maskinel indlæring. Dataene kan derefter bruges til at feede upstream-datavisualisering og ad hoc-rapporteringsbehov. En moderne end-to-end-dataplatform som Azure Synapse Analytics håndterer de komplette behov i en big data-arkitektur, der er centreret omkring datasøen.

Brugseksempler på datasøer

Med en veldesignet løsning er potentialet for innovation uendeligt. Her er blot et par eksempler på, hvordan organisationer på tværs af en række brancher bruger datasøplatforme til at optimere deres vækst:

  • Streaming af medier. Abonnementsbaserede streamingvirksomheder indsamler og behandler indsigt i kundeadfærd, som de kan bruge til at forbedre deres anbefalingsalgoritme.
  • Finans. Investeringsvirksomheder bruger de nyeste markedsdata, der indsamles og gemmes i realtid, til effektivt at administrere porteføljerisici.
  • Sundhedspleje. Sundhedsorganisationer bruger big data til at forbedre kvaliteten af patientplejen. Hospitalerne bruger store mængder historiske data til at strømline patientveje, hvilket resulterer i bedre resultater og reduceret behandlingsomkostninger.
  • Omnichannel forhandler. Detailhandlere bruger datasøer til at registrere og konsolidere data, der kommer fra flere kontaktpunkter, herunder mobil, social, chat, mund-til-mund og personligt.
  • IoT. Hardwaresensorer genererer enorme mængder delvist strukturerede til ustrukturerede data i den omgivende fysiske verden. Datasøer udgør et centralt lager, hvor disse oplysninger kan lagres sig til fremtidig analyse.
  • Digital forsyningskæde. Datasøer hjælper producenter med at konsolidere forskellige lagerdata, herunder EDI-systemer, XML og JSON'er.
  • Salg. Dataeksperter og salgsteknikere bygger ofte forudsigende modeller for at hjælpe med at bestemme kundernes adfærd og reducere den overordnede afgang.

Datasø vs. data warehouse

Nu ved du, hvad en datasø er, hvorfor den er vigtig, og hvordan den bruges på tværs af en række organisationer. Men hvad er forskellen på en datasø og et data warehouse? Og hvornår er det passende at bruge den ene frem for den anden?

Selvom datasøer og data warehouses er ens, idet de både gemmer og behandler data, har de hver deres egne specialer og derfor deres egne brugssager. Derfor er det almindeligt, at en organisation på virksomhedsniveau inkluderer en datasø og en data warehouse i deres analyseøkosystem. Begge lagre arbejder sammen om at danne et sikkert, end-to-end-system til lagring, behandling og hurtigere tid til indsigt.

En datasø henter både relationelle og ikke-relationelle data fra en række forskellige kilder – virksomhedsprogrammer, mobile apps, IoT-enheder, sociale medier eller streaming – uden at skulle definere strukturen eller skemaet for dataene, indtil de læses. Skema-on-read sikrer, at alle typer data kan gemmes i den rå form. Derfor kan datasøer indeholde en lang række datatyper, fra struktureret til delvist struktureret til ustruktureret, på enhver skala. Deres fleksible og skalerbare natur gør dem vigtige for at udføre komplekse former for dataanalyse ved hjælp af forskellige typer beregningsværktøjer som f.eks. Apache Spark eller Microsoft Azure Machine Learning.

En data warehouse er derimod relationel i sin natur. Strukturen eller skemaet er modelleret eller foruddefineret efter forretnings- og produktkrav, der er organiseret, i overensstemmelse med og optimeret til SQL-forespørgselshandlinger. Mens en datasø indeholder data af alle strukturtyper, herunder rå og ubehandlede data, gemmer en data warehouse data, der er blevet behandlet og transformeret med et bestemt formål for øje, og som derefter kan bruges til kildeanalyse eller driftsrapportering. Dette gør data warehouses ideelle til at producere mere standardiserede former for BI-analyse eller til at betjene en virksomheds-brugssag, der allerede er defineret.

Ikke tilgængelig Datasø Data warehouse
Type Struktureret, delvist struktureret, ustruktureret Struktureret
Ikke tilgængelig Relationel, ikke-relationel Relationel
Skema Skema ved læsning Skema ved skrivning
Format Rå, ufiltreret Behandlet, kontrolleret
Kilder Big data, IoT, sociale medier, streamingdata Applikation, virksomhed, transaktionsdata, batchrapportering
Skalerbarhed Let at skalere til en lav pris Svært og dyrt at skalere
Brugere Dataeksperter, datateknikere Data Warehouse-fagpersoner, forretningsanalytikere
Anvendelsesområder Maskinel indlæring, forudsigende analyse, analyse i realtid Kernerapportering, BI

Datasø vs. datasøhus

Nu kender du forskellen mellem en datasø vs. en data warehouse. Men hvad er forskellen på en datasø og et datasøhus? Og er det nødvendigt at have begge dele?

På trods af de mange fordele er en traditionel datasø ikke uden ulemper. Da datasøer kan rumme alle typer data fra alle typer kilder, kan der opstå problemer, der er relateret til kvalitetskontrol, beskadigelse af data og forkert partitionering. En dårligt administreret datasø beskadiger ikke kun dataintegritet, men kan også føre til flaskehalse, langsom ydeevne og sikkerhedsrisici.

Det er her, datasøhuse kommer i spil. Et datasøhus er en åben standardbaseret lagerløsning, der har mange facetter i sin natur. Det kan håndtere behovet hos dataeksperter og teknikere, der udfører dybdegående dataanalyse og -behandling, samt de behov, som traditionelle data warehouse-fagpersoner, der organiserer og publicerer data til business intelligence- og rapporteringsformål. Skønheden ved søhuse er, at hver arbejdsbelastning kan fungere problemfrit oven på datasøen uden at skulle duplikere dataene til en anden strukturelt foruddefineret database. Dette sikrer, at alle arbejder på de mest opdaterede data, samtidig med at redundans reduceres.

Datasøhuse løser problemerne i traditionelle datasøer ved at tilføje et Delta Lake-lagerlag direkte oven på cloud-datasøen. Lagerlaget giver en fleksibel analytisk arkitektur, der kan håndtere TRANSAKTIONER af typen ACID (atomitet, konsekvens, isolation, og holdbarhed) for datapålidelighed, streamingintegrationer og avancerede funktioner som data-versionsstyring og skemaadministration. Dette giver mulighed for en række analytiske aktiviteter over søen, alt sammen uden at gå på kompromis med kernedatakonsistens. Selvom behovet for et søhus afhænger af, hvor komplekse dine behov er, gør dets fleksibilitet og rækkevidde det til en optimal løsning for mange virksomhedsorganisation.

Ikke tilgængelig Datasø Datasøhus
Type Struktureret, delvist struktureret, ustruktureret Struktureret, delvist struktureret, ustruktureret
Ikke tilgængelig Relationel, ikke-relationel Relationel, ikke-relationel
Skema Skema ved læsning Skema ved læsning, skema ved skrivning
Format Rå, ufiltreret, behandlet, organiseret af Rå, ufiltreret, behandlet, organiseret af, deltaformaterede filer
Kilder Big data, IoT, sociale medier, streamingdata Big data, IoT, sociale medier, streamingdata, applikation, virksomhed, transaktionsdata, batchrapportering
Skalerbarhed Let at skalere til en lav pris Let at skalere til en lav pris
Brugere Dataeksperter Forretningsanalytikere, datateknikere, dataeksperter
Anvendelsesområder Maskinel indlæring, forudsigende analyse Kernerapportering, BI, maskinel indlæring, forudsigende analyse

Hvad er datasøarkitektur?

I sin kerne er en datasø et lager uden sin egen faste arkitektur. For at få mest mulig ud af funktionerne kræver det en lang række værktøjer, teknologier og beregningsprogrammer, der hjælper med at optimere integration, lagring og behandling af data. Disse værktøjer arbejder sammen for at skabe en sammenhængende lagdelt arkitektur, der er informeret af big data og kører oven på datasøen. Denne arkitektur kan også udgøre driftsstrukturen for et datasøhus. Hver organisation har sin egen entydige konfiguration, men de fleste datasøhusarkitekturer indeholder følgende:

  • Ressourcestyring og orkestrering. En resource manager gør det muligt for datasøen konsekvent at udføre opgaver ved at allokere den rigtige mængde data, ressourcer og beregningskraft til de rigtige steder.
  • Forbindelser, for nemmere adgang. En række arbejdsprocesser gør det nemt for brugerne at få adgang til og dele de data, de har brug for, i den form, de skal bruge i.
  • Pålidelig analyse. En god analysetjeneste skal være hurtig, skalerbar og distribueret. Den bør også understøtte et bredt udvalg af arbejdsbelastningskategorier på tværs af flere sprog.
  • Dataklassificering. Dataprofilering, katalogisering og arkivering hjælper organisationer med at holde styr på dataindhold, kvalitet, placering og historik.
  • Udtræk, indlæs, transformér (ELT)-processer. ELT refererer til de processer, hvori data udtrækkes fra flere kilder og indlæses i datasøens rå zone og derefter renses og transformeres efter udpakningen, så programmer kan bruge dem hurtigt.
  • Sikkerhed og support. Databeskyttelsesværktøjer som maskering, overvågning, kryptering og adgangsovervågning sikrer, at dine data forbliver sikre og private.
  • Styring og forvaltning. For at datasøplatformen kan køre så problemfrit som muligt, skal brugerne være bedre i forhold til dens arkitektoniske konfiguration samt bedste praksis for data- og driftsstyring.

Ofte stillede spørgsmål

  • En datasø er et centraliseret lager, der optager, lagrer og gør det muligt at behandle store datamængder i den oprindelige form. Det kan rumme alle typer data, som derefter bruges til at styrke big dataanalyse, maskinel indlæring og andre former for intelligent handling.

    Få mere at vide om datasøer

  • Organisationer på tværs af en række brancher, herunder detail, økonomi og underholdning, bruger datasø-platforme til at gemme data, indsamle indsigter og forbedre den overordnede kvalitet af deres tjenester. Investeringsvirksomheder, f.eks. brug datasøer til at indsamle og behandle markedslanceringsdata, så de kan administrere porteføljerisici mere effektivt.
  • Datasøer gemmer alle typer rådata, som dataeksperter derefter kan bruge til en række projekter. Data warehouses lagrer rensede og behandlede data, som derefter kan bruges til kildeanalyse eller driftsrapportering samt specifikke BI-use cases.

    Udforsk datasøer vs. data warehouses

  • Et datasøhus kombinerer elementer fra en datasø og en data warehouse for at danne en fleksibel, komplet løsning til datavidenskabelige og business intelligente formål.

    Få mere at vide om datasøhuse

  • Absolut. Større organisationer på tværs af alle brancher bruger de enorme mængder af lagrede data i datasøer til at foretage intelligente handlinger, få indsigt og vokse.

    Opdag fordelene ved datasøer

  • Store datamængder, herunder rå og ustrukturerede data, kan være svære at administrere, hvilket kan medføre flaskehalse, beskadigelse af data, problemer med kvalitetssikring og problemer med ydeevnen. Det er derfor, det er vigtigt at opretholde god styring og god praksis for ejerskab for at hjælpe dig med at køre din datasø-platform problemfrit.
  • Datasøarkitektur refererer til den specifikke konfiguration af værktøjer og teknologier, der hjælper med at holde data fra datasøen integreret, tilgængelig, organiseret og sikker.

    Udforsk bedste praksis for datasøarkitektur

Gratis konto

Prøv Azure Cloudcomputing-tjenester gratis i op til 30 dage.

Pay as you go

Kom i gang med prisfastsættelsen Betal efter forbrug. Der er ingen binding på forhånd – du kan annullere når som helst.

Kan vi hjælpe dig?