Hopp over navigasjon

Hva er Data Lake

Se hvordan datasjøer skiller seg fra datavarehus og datasjøhus. Oppdag hvordan du bygger et skalerbart grunnlag for all analyse med Azure.

Hva er en datasjø?

Denne introduksjonsveiledningen utforsker de mange fordelene og brukstilfellene til en datasjø. Finn ut hva en datasjø er, hvorfor den er viktig, og hvordan den skiller seg fra et datalager eller datasjøhus. Men først skal vi definere datasjø som et begrep.

En datasjø er et sentralisert repositorium som inntar og lagrer store mengder data i sin opprinnelige form. Dataene kan deretter behandles og brukes som grunnlag for en rekke analytiske behov. På grunn av den åpne, skalerbare arkitekturen har en datasjø plass til alle typer data fra en hvilken som helst kilde, fra strukturerte (databasetabeller, Excel-ark) til halvstrukturerte (XML-filer, nettsider) til ustrukturerte (bilder, lydfiler, tweeter), uten å lage gjengivelse. Datafilene lagres vanligvis i trinnvise soner – rå, renset og kuratert – slik at ulike typer brukere kan bruke dataene i de ulike skjemaene til å dekke deres behov. Data laker gir kjernedatakonsekvens på tvers av en rekke programmer, som driver stordataanalyse, maskinlæring, prediktiv analyse og andre former for intelligent handling.

Er datasjøer viktige?

Dagens svært tilkoblede, innsiktsdrevne verden ville ikke vært mulig uten datasjøløsninger. Det er fordi organisasjoner er avhengige av omfattende datasjøplattformer, for eksempel Azure Data Lake, for å holde rådata konsolidert, integrert, sikkert og tilgjengelig. Skalerbare lagringsverktøy som Azure Data Lake Storage kan oppbevare og beskytte data på ett sentralt sted, noe som eliminerer siloer til en optimal kostnad. Dette legger grunnlaget for at brukerne kan utføre en rekke arbeidsbelastningskategorier, for eksempel behandling av store data, SQL-spørringer, tekstutvinning, strømmeanalyse og maskinlæring. Dataene kan deretter brukes til å mate oppstrøms datavisualisering og ad hoc-rapporteringsbehov. En moderne, ende-til-ende-dataplattform som Azure Synapse Analytics dekker de fullstendige behovene til en stordataarkitektur som er sentrert rundt datasjøen.

Brukstilfeller for datasjø

Med en godt utformet løsning er potensialet for innovasjon uendelig. Her er bare noen eksempler på hvordan organisasjoner på tvers av en rekke bransjer bruker datasjøplattformer til å optimalisere veksten:

  • Strømmer media. Abonnementsbaserte strømmeselskaper samler inn og behandler innsikt om kundeatferd, som de kan bruke til å forbedre anbefalingsalgoritmen.
  • Finans. Investeringsselskaper bruker de mest oppdaterte markedsdataene, som samles inn og lagres i sanntid, for effektiv håndtering av porteføljerisikoer.
  • Helsetjenester. Helseorganisasjoner er avhengige av store data for å forbedre kvaliteten på omsorgen for pasienter. Sykehus bruker enorme mengder historiske data for å strømlinjeforme pasientforløp, noe som resulterer i bedre resultater og reduserte behandlingskostnader.
  • Omnikanal-forhandler. Forhandlere bruker datasjøer til å fange opp og konsolidere data som kommer inn fra flere berøringspunkter, inkludert mobil, sosialt, chat, ord i munnen og personlig.
  • IoT. Maskinvaresensorer genererer enorme mengder semi-strukturert til ustrukturert data om den omkringliggende fysiske verden. Datasjøer gir et sentralt oppbevaringssted for denne informasjonen å leve i for fremtidig analyse.
  • Digital forsyningskjede. Datasjøer hjelper produsenter med å konsolidere ulike lagringsdata, inkludert EDI-systemer, XML og JSON-er.
  • Salg. Dataforskere og salgsingeniører bygger ofte prediktive modeller for å bidra til å bestemme kundens atferd og redusere samlet frafall.

Datasjø kontra datalager

Nå vet du hva en datasjø er, hvorfor det er viktig, og hvordan den brukes på tvers av en rekke organisasjoner. Men hva er forskjellen mellom en datasjø kontra et datalager? Og når er det aktuelt å bruke det over det andre?

Selv om datasjøer og datalagre er like ved at de både lagrer og behandler data, har hver av dem sine egne spesialoppgaver, og derfor sine egne brukstilfeller. Derfor er det vanlig for en organisasjon på bedriftsnivå å inkludere en datasjø og et datalager i analyseøkosystemet. Begge repositorier arbeider sammen for å danne et sikkert, ende-til-ende-system for lagring, behandling og raskere tid til innsikt.

En datasjø fanger både relasjonelle og ikke-relasjonelle data fra en rekke kilder – forretningsapplikasjoner, mobilapper, IoT-enheter, sosiale medier eller strømming – uten å måtte definere strukturen eller skjemaet til dataene før de er lest. Skjema ved lesing sikrer at alle typer data kan lagres i råform. Som et resultat kan datasjøer inneholde et bredt utvalg av datatyper, fra strukturert til semi-strukturert til ustrukturert, i alle skalaer. Deres fleksible og skalerbare natur gjør dem essensielle for å utføre komplekse former for dataanalyse ved å bruke forskjellige typer databehandlingsverktøy som Apache Spark eller Azure Machine Learning.

Et datavarehus har derimot relasjonsmessig karakter. Strukturen eller skjemaet er modellert eller forhåndsdefinert av forretnings- og produktkrav som er kuratert, konform og optimalisert for SQL-spørringsoperasjoner. Mens en datasjø inneholder data av alle strukturtyper, inkludert rå og ubehandlede data, lagrer et datalager data som har blitt behandlet og transformert med et bestemt formål i tankene, som deretter kan brukes til kildeanalyse eller driftsrapportering. Dette gjør datalagre ideelle for å produsere mer standardiserte former for BI-analyse, eller for å betjene et forretningsbrukstilfelle som allerede er definert.

Ikke tilgjengelig Datasjø Datalager
Type Strukturert, halvstrukturert, ustrukturert Strukturert
Ikke tilgjengelig Relasjonell, ikke-relasjonell Relasjonelt
Skjema Skjema ved lesing Skjema ved skriving
Format Rå, ufiltrert Behandlet, gjennomgått
Kilder Store data, IoT, sosiale medier, strømming av data Program, bedrift, transaksjonsdata, bunkerapportering
Skalerbarhet Enkel å skalere til en lav pris Vanskelig og kostbart å skalere
Brukere Dataforskere, datateknikere Datalagerfagfolk, forretningsanalytikere
Brukseksempler Maskinlæring, prediktiv analyse, sanntidsanalyse Kjernerapportering, BI

Hva er et datasjøhus?

Nå vet du forskjellen mellom en datasjø kontra et datavarehus. Men hva er forskjellen mellom en datasjø kontra et datasjøhus? Og er det nødvendig å ha begge deler?

Til tross for mange fordeler, er en tradisjonell datasjø ikke uten sine ulemper. Fordi datasjøer kan romme alle typer data fra alle typer kilder, kan det oppstå problemer knyttet til kvalitetskontroll, dataskade og feil partisjonering. En dårlig administrert datasjø svekker ikke bare dataintegritet, men det kan også føre til flaskehalser, lav ytelse og sikkerhetsrisikoer.

Det er der datasjøhuset kommer inn i bildet. Et datasjøhus er en åpen standardbasert lagringsløsning som er mangefasettert i natur. Den kan håndtere behovene til dataforskere og ingeniører som utfører dyp dataanalyse og -behandling, i tillegg til behovene til tradisjonelle datalagerfagfolk som kuraterer og publiserer data for forretningsintelligens- og rapporteringsformål. Det fine med sjøhuset er at hver arbeidsbelastning sømløst kan operere på toppen av datasjøen uten å måtte duplisere dataene til en annen strukturelt forhåndsdefinert database. Dette sikrer at alle arbeidere med de mest oppdaterte dataene, samtidig som redundans reduseres.

Datasjøhus løser utfordringene ved tradisjonelle datasjøer ved å legge til et Delta Lake-lagringslag direkte på toppen av skydatasjøen. Lagringslaget gir en fleksibel analytisk arkitektur som kan håndtere ACID-transaksjoner (atomisitet, konsistens, isolasjon og holdbarhet) for datapålitelighet, strømmeintegreringer og avanserte funksjoner som dataversjonskontroll og skjemahåndhevelse. Dette muliggjør en rekke analytiske aktiviteter over datasjøen, alt uten å gå på bekostning av kjernedatakonsekvens. Mens nødvendigheten av et sjøhus avhenger av hvor komplekse behovene dine er, gjør dets fleksibilitet og rekkevidde det til en optimal løsning for mange bedriftsorganisasjoner.

Ikke tilgjengelig Datasjø Datasjøhus
Type Strukturert, halvstrukturert, ustrukturert Strukturert, halvstrukturert, ustrukturert
Ikke tilgjengelig Relasjonell, ikke-relasjonell Relasjonell, ikke-relasjonell
Skjema Skjema ved lesing Skjema ved lesing, skjema ved skriving
Format Rå, ufiltrert, behandlet, kuratert Rå, ufiltrert, behandlet, kuratert, deltaformatfiler
Kilder Store data, IoT, sosiale medier, strømming av data Stordata, IoT, sosiale medier, strømmedata, program, bedrift, transaksjonsdata, partirapportering
Skalerbarhet Enkel å skalere til en lav pris Enkel å skalere til en lav pris
Brukere Dataforskere Forretningsanalytikere, dataingeniører, dataforskere
Brukseksempler Maskinlæring, prediktiv analyse Kjernerapportering, BI, maskinlæring, prediktiv analyse

Hva er datasjøarkitektur?

I kjernen er en datasjø et lagerrepositorium uten egen arkitektur. For å få mest mulig ut av funksjonene, krever det et bredt utvalg av verktøy, teknologier og databehandlingsmotorer som bidrar til å optimalisere integrering, lagring og behandling av data. Disse verktøyene arbeider sammen for å skape en sammenhengende lagvis arkitektur, en som er informert av store data og kjører på toppen av datasjøen. Denne arkitekturen kan også danne driftsstrukturen til et datasjøhus. Hver organisasjon har sin egen unike konfigurasjon, men de fleste datasjøhus-arkitekturer har følgende:

  • Ressursstyring og orkestrering. En ressursadministrator gjør det mulig for datasjøen å utføre oppgaver konsekvent ved å tildele riktig mengde data-, ressurser- og databehandlingskraft til de riktige stedene.
  • Koblinger for enkel tilgang. En rekke arbeidsflyter lar brukere enkelt få tilgang til – og dele – dataene de trenger i den formen de trenger dem i.
  • Pålitelig analyse. En god analysetjeneste bør være rask, skalerbar og distribuert. Den bør også støtte et mangfold av arbeidsbelastningskategorier på tvers av flere språk.
  • Dataklassifisering. Dataprofilering, katalogisering og arkivering hjelper organisasjoner med å holde oversikt over datainnhold, kvalitet, plassering og logg.
  • Trekke ut, laste, transformere (ELT) prosesser. ELT refererer til prosessene der data trekkes ut fra flere kilder og lastes inn i datasjøens råsone, deretter renses og transformeres etter uttrekking, slik at programmene enkelt kan bruke det.
  • Sikkerhet og støtte. Databeskyttelsesverktøy som maskering, overvåking, kryptering og tilgangsovervåking sikrer at dataene forblir trygge og private.
  • Forvalter og forvalterskap. For at datasjøplattformen skal kunne kjøre så problemfritt som mulig, bør brukerne læres opp på arkitekturkonfigurasjonen, i tillegg til anbefalte fremgangsmåter for data- og driftsadministrasjon.

Vanlige spørsmål

  • En datasjø er et sentralisert repositorium som inntar, lagrer og tillater behandling av store mengder data i sin opprinnelige form. Den har plass til alle typer data, som deretter brukes til å drive dataanalyse av store data, maskinlæring og andre former for intelligent handling.

    Finn ut mer om datasjøer

  • Datasjøer lagrer alle typer rådata, som dataforskere deretter kan bruke til en rekke prosjekter. Datavarehus lagrer rensede og behandlede data, som deretter kan brukes til kildeanalyse- eller driftsrapportering, i tillegg til spesifikke BI-brukstilfeller.

    Utforsk datasjøer kontra datavarehus

  • Et datasjøhus kombinerer elementer fra en datasjø og et datavarehus for å danne en fleksibel, ende-til-ende-løsning for datavitenskap og forretningsanalyseformål.

    Finn ut mer om datasjøhus

  • Absolutt. Store organisasjoner på tvers av alle bransjer er avhengige av de enorme datamengdene som er lagret i datasjøer for å drive intelligent handling, få innsikt og vokse.

    Oppdag fordelene med datasjøer

  • Datasjøarkitektur refererer til den spesifikke konfigurasjonen av verktøy og teknologier som bidrar til å holde data fra datasjø integrert, tilgjengelig, organisert og sikker.

    Utforsk anbefalte fremgangsmåter for datasjøarkitektur

Kom i gang med en gratis konto i Azure

Nyt populære analysetjenester gratis i 12 måneder, mer enn 25 tjenester gratis alltid, og $200 kreditt som du kan bruke i løpet av de første 30 dagene.

Kontakt en Azure-selger

Få råd om hvordan du kommer i gang med analyse i Azure. Still spørsmål, lær om priser og anbefalte fremgangsmåter, og få hjelp til å utforme en løsning som dekker dine behov.

Kan vi hjelpe deg?