Trace Id is missing
Gå til hovedindholdet
Azure

Hvad er en Datasø?

Få mere at vide om forskellen mellem datasøer og data warehouses. Se, hvordan du skaber et skalerbart fundament for alle dine analyser med Azure.

Definition af datasø

I denne introduktionsvejledning udforskes de mange fordele og use cases ved en datasø. Få mere at vide om, hvad en datasø er, hvorfor det er vigtigt, og find forskellen mellem datasøer og data warehouses. Men lad os først definere datasø som et begreb.

En datasø er et centraliseret lager, der indtager og gemmer store datamængder i sin oprindelige form. Dataene kan derefter behandles og bruges som grundlag for en række forskellige analysebehov. På grund af sin åbne, skalerbare arkitektur kan en datasø rumme alle typer data fra enhver kilde, fra strukturerede (databasetabeller, Excel-ark) til semistrukturerede (XML-filer, websider) til ustrukturerede (billeder, lydfiler, tweets), alt sammen uden at gå på kompromis med pålideligheden. Datafilerne gemmes typisk i trinvise zoner - rå, rensede og organiserede, så forskellige typer brugere kan bruge dataene i deres forskellige former til at opfylde deres behov. Datasøer giver en grundlæggende datakonsistens på tværs af en række programmer, der driver big data-analysemaskinel indlæring, forudsigende analyser og andre former for intelligent handling.

Hvorfor er datasøer vigtige for virksomheder?

Nutidens stærkt forbundne, indsigtsdrevne verden ville ikke være mulig uden fremkomsten af løsninger med datasøer. Det skyldes, at organisationer er afhængige af omfattende datasøplatforme, f.eks. Azure Data Lake, for at holde rådata konsolideret, integreret, sikker og tilgængelig. Skalerbare lagerværktøjer som Azure Data Lake Storage kan opbevare og beskytte data på ét centralt sted, hvilket eliminerer siloer til en optimal pris. Det danner grundlaget for, at brugerne kan udføre en lang række kategorier af arbejdsbelastninger, såsom big data-behandling, SQL-forespørgsler, tekstmining, streaminganalyse og maskinel indlæring. Dataene kan derefter bruges til at opfylde opstrøms behov for datavisualisering og ad hoc-rapportering. En moderne, komplet dataplatform, f.eks. Azure Synapse Analytics, håndterer de komplette behov i en big data-arkitektur, der er centreret omkring datasøen.

Use cases for datasøer

Med en veldesignet løsning er potentialet for innovation uendeligt. Her er nogle få eksempler på, hvordan organisationer på tværs af en række brancher bruger datasøplatforme til at optimere deres vækst:

  • Streaming af medier. Abonnementsbaserede streamingvirksomheder indsamler og behandler indsigt i kundeadfærd, som de kan bruge til at forbedre deres anbefalingsalgoritme.

  • Økonomi. Investeringsvirksomheder bruger de mest opdaterede markedsdata, som indsamles og gemmes i realtid, til effektivt at administrere porteføljerisici.

  • Sundhedsvæsenet. Sundhedsorganisationer er afhængige af big data for at forbedre kvaliteten af plejen af patienter. Hospitaler bruger store mængder historiske data til at strømline patientveje, hvilket resulterer i bedre resultater og reducerede plejeomkostninger.

  • Omnichannel-forhandler. Detailhandlere bruger datasøer til at registrere og konsolidere data, der kommer fra flere berøringspunkter, herunder mobil, social, chat, mund til mund og personligt.

  • IoT. Hardwaresensorer genererer enorme mængder semistrukturerede til ustrukturerede data i den omgivende fysiske verden. Datasøer udgør et centralt lager, hvor disse oplysninger kan hentes til fremtidig analyse.

  • Digital forsyningskæde. Datasøer hjælper producenter med at konsolidere forskellige data fra warehousing, herunder EDI-systemer, XML og JSON'er.

  • Sales. Dataloger og salgsteknikere bygger ofte forudsigende modeller for at hjælpe med at fastslå kundeadfærden og reducere den samlede kundeafgang.

Datasø vs. data warehouse

Nu ved du, hvad en datasø er, hvorfor den er vigtig, og hvordan den bruges på tværs af en række organisationer. Men hvad er forskellen mellem en datasø og en data warehouse? Og hvornår er det relevant at bruge det ene frem for det andet?

Mens datasøer og data warehouses er ens, idet de både gemmer og behandler data, har de hver deres specialer og derfor deres egne use cases. Derfor er det almindeligt, at en organisation på virksomhedsniveau inkluderer en datasø og en data warehouse i deres analyseøkosystem. Begge lagre arbejder sammen om at danne et sikkert, end-to-end-system til lagring, behandling og hurtigere indsigtstid.

En datasø registrerer både relationelle og ikke-relationelle data fra en række forskellige kilders—virksomhedsprogrammer, mobilapps, IoT-enheder, sociale medier eller streaming—uden at skulle definere strukturen eller skemaet for dataene, før de læses. Skema i læsetilstand sikrer, at alle typer data kan gemmes i deres rå form. Derfor kan datasøer indeholde en lang række datatyper, fra strukturerede til delvist strukturerede til ustrukturerede, i en hvilken som helst skala. Deres fleksible og skalerbare karakter gør dem essentielle for at udføre komplekse former for dataanalyse ved hjælp af forskellige typer beregningsværktøjer, f.eks. Apache Spark eller Azure Machine Learning.

En data warehouse er derimod relationel i sin natur. Strukturen eller skemaet er modelleret eller foruddefineret efter forretnings- og produktkrav, der er organiseret, i overensstemmelse med og optimeret til SQL-forespørgselshandlinger. Mens en datasø indeholder data af alle strukturtyper, herunder rå og ikke-behandlede data, gemmer en data warehouse data, der er blevet behandlet og transformeret med et bestemt formål i tankerne, og som derefter kan bruges til kildeanalyse eller driftsrapportering. Dette gør data warehouses ideelle til at producere mere standardiserede former for BI-analyse eller til at betjene en forretningsbrugscase, der allerede er defineret.

Datasø Data warehouse
Type Strukturerede, halvstrukturerede, ustrukturerede Struktureret
  Relationelle, ikke-relationelle Relationel
Skema Skema i læsetilstand Skema i skrivetilstand
Format Rå, ufiltreret Behandlet, godkendt
Kilder Big data, IoT, sociale medier, streamingdata Applikation, erhverv, transaktionsdata, batch-rapportering
Skalerbarhed Nemme og prisvenlige at skalere Vanskelige og dyre at skalere
Brugere Dataloger, dataudviklere Data warehouse-eksperter, driftsøkonomer
Use cases Maskinel indlæring. forudsigende analyse, analyse i realtid Kernerapportering, BI

Datasø vs. datasøhus

Nu kender du forskellen mellem en datasø og et data warehouse. Men hvad er forskellen mellem en datasø og et datasøhus? Og er det nødvendigt at have begge dele?

På trods af de mange fordele er en traditionel datasø ikke uden ulemper. Da datasøer kan rumme alle typer data fra alle typer kilder, kan der opstå problemer, der er relateret til kvalitetskontrol, beskadigelse af data og forkert partitionering. En dårligt administreret datasø beskadiger ikke kun dataintegritet, men den kan også føre til flaskehalse, langsom ydeevne og sikkerhedsrisici.

Det er her, datasøhuset kommer i spil. Et datasøhus er en åben standardbaseret lagerløsning, der har mange facetter. Den kan håndtere behovene hos dataloger og teknikere, der udfører dybdegående dataanalyse og -behandling, samt behovene hos traditionelle data warehouse-teknikere, der organiserer og publicerer data til business intelligence- og rapporteringsformål. Det smarte ved søhuset er, at hver arbejdsbelastning problemfrit kan fungere oven på datasøen uden at skulle duplikere dataene til en anden strukturelt foruddefineret database. Dette sikrer, at alle arbejder på de mest opdaterede data, samtidig med at redundans reduceres.

Datasøhuse håndterer udfordringerne ved traditionelle datasøer ved at tilføje et lagringslag i Deltasøen direkte oven på clouddatasøen. Lagringslaget giver en fleksibel analytisk arkitektur, der kan håndtere ACID-transaktioner (atomicitet, konsistens, isolation og holdbarhed) for datapålidelighed, streamingintegrationer og avancerede funktioner som dataversionering og skemahåndhævelse. Det giver mulighed for en række analytiske aktiviteter over søen, alt sammen uden at gå på kompromis med den grundlæggende datakonsistens. Selvom behovet for et søhus afhænger af, hvor komplekse dine behov er, gør dets fleksibilitet og rækkevidde det til en optimal løsning for mange virksomhedsorganisation.

Datasø Datasøhus
Type Strukturerede, halvstrukturerede, ustrukturerede Strukturerede, halvstrukturerede, ustrukturerede
  Relationelle, ikke-relationelle Relationelle, ikke-relationelle
Skema Skema i læsetilstand Skema i læsetilstand, skema i skrivetilstand
Format Rå, ufiltreret, behandlet, organiseret Rå, ufiltrerede, behandlede, organiserede, deltaformaterede filer
Kilder Big data, IoT, sociale medier, streamingdata Big data, IoT, sociale medier, streamingdata, program, virksomhed, transaktionsdata, batchrapportering
Skalerbarhed Nemme og prisvenlige at skalere Nemme og prisvenlige at skalere
Brugere Dataloger Driftsøkonomer, dataudviklere, dataloger
Use cases Maskinel indlæring, forudsigende analyse Kernerapportering, BI, maskinel indlæring, forudsigende analyse

Hvad er datasøarkitektur?

I kernen er en datasø et lagerlager uden sin egen faste arkitektur. For at få mest muligt ud af funktionerne kræver det en lang række værktøjer, teknologier og beregningsprogrammer, der hjælper med at optimere integration, lagring og behandling af data. Disse værktøjer arbejder sammen om at skabe en sammenhængende, lagdelt arkitektur, der er baseret på big data og kører oven på datasøen. Denne arkitektur kan også udgøre driftsstrukturen for et datasøhus. Hver organisation har sin egen unikke konfiguration, men de fleste datasøhusarkitekturer indeholder følgende:

  • Ressourceadministration og orkestrering. En Resource Manager gør det muligt for datasøen konsekvent at udføre opgaver ved at allokere den rette mængde data, ressourcer og beregningskraft til de rette steder.

  • Forbindelser, der giver nem adgang. En række arbejdsprocesser gør det nemt for brugerne at få adgang til og dele de data, de har brug for, i den form, de skal bruge dem i.

  • Pålidelig analyse. En god analysetjeneste skal være hurtig, skalerbar og distribueret. Den bør også understøtte en lang række kategorier af arbejdsbelastninger på tværs af flere sprog.

  • Dataklassificering. Dataprofilering, katalogisering og arkivering hjælper organisationer med at holde styr på dataindhold, kvalitet, placering og historik.

  • Udtræk, indlæs, transformer (ELT)-processer. ELT henviser til de processer, hvor data udtrækkes fra flere kilder og indlæses i datasøens råzone, hvorefter de renses og transformeres efter udtrækning, så programmer nemt kan bruge dem.

  • Sikkerhed og support. Værktøjer til databeskyttelse som maskering, overvågning, kryptering og adgangsovervågning sikrer, at dine data forbliver sikre og private.

  • Styring og forvaltning. For at datasøplatformen kan køre så problemfrit som muligt, skal brugerne oplæres i dens arkitektoniske konfiguration samt bedste praksis for data- og driftsadministration.

Ofte stillede spørgsmål

  • En datasø er et centraliseret lager, der indtager, lagrer og gør det muligt at behandle store mængder data i den oprindelige form. Den kan rumme alle typer data, som derefter bruges til at drive analyse af big data, maskinel indlæring og andre former for intelligent handling.

    Få mere at vide om datasøer

  • Organisationer på tværs af en række brancher, herunder detailhandel, økonomi og underholdning, bruger datasøplatforme til at gemme data, indsamle indsigt og forbedre den overordnede kvalitet af deres tjenester. Investeringsvirksomheder kan f.eks. bruge datasøer til at indsamle og behandle markedsdata, så de kan administrere porteføljerisici mere effektivt.

  • Datasøer gemmer alle typer rådata, som dataeksperter derefter kan bruge til en række forskellige projekter. Data warehouses lagrer rensede og behandlede data, som derefter kan bruges til kildeanalyse eller driftsrapportering samt specifikke BI-use cases.

    Udforsk datasøer i forhold til data warehouses

  • Et datasøhus kombinerer elementer fra en datasø og en data warehouse for at danne en fleksibel løsning fra slutpunkt til slutpunkt til datavidenskab og business intelligence-formål.

    Få mere at vide om datasøhuse

  • Absolut. Store organisationer på tværs af alle brancher er afhængige af de enorme mængder data, der lagres i data lakes, for at kunne handle intelligent, få indsigt og vokse.

    Opdag fordelene ved datasøer

  • Store datamængder, herunder rå og ustrukturerede data, kan være svære at administrere, hvilket kan medføre flaskehalse, beskadigelse af data, problemer med kvalitetskontrol og problemer med ydeevnen. Derfor er det vigtigt at bevare god styring og styringspraksis, så du kan køre din Data Lake-platform uden problemer.

  • Data Lake-arkitektur henviser til den specifikke konfiguration af værktøjer og teknologier, der hjælper med at holde data fra datasøen integreret, tilgængelig, organiseret og sikker.

    Udforsk bedste praksis for datasøarkitektur

Gratis konto

Prøv tjenesterne fra Azure Cloud Computing gratis i op til 30 dage.

Betalt efter forbrug

Kom i gang med priser, der betales efter forbrug. Der er ingen forudgående forpligtelser – du kan annullere når som helst.