Hva er en datasjø?

Finn ut mer om forskjellen mellom datasjøer og datalagre. Oppdag hvordan du bygger et skalerbart fundament for all analyse med Azure.

Definisjon av datasjø

Denne introduksjonsveiledningen utforsker de mange fordelene og brukstilfellene til en datasjø. Finn ut hva en datasjø er, hvorfor den er viktig, og oppdag forskjellen mellom datasjøer og datalagre. Men først skal vi definere datasjø som et begrep.

En datasjø er et sentralisert repositorium som tar inn og lagrer store mengder data i deres opprinnelige form. Dataene kan deretter behandles og brukes som grunnlag for en rekke analytiske behov. På grunn av den åpne, skalerbare arkitekturen kan en datasjø romme alle typer data fra enhver kilde, fra strukturerte (databasetabeller, Excel-ark) til halvstrukturerte (XML-filer, nettsider) til ustrukturerte (bilder, lydfiler, tweets), alt uten å ofre gjengivelse. Datafilene lagres vanligvis i trinnvise soner – rå, renset og kuratert – slik at ulike typer brukere kan bruke dataene i de ulike formene for å dekke behovene deres. Datasjøer gir kjernedatakonsekvens på tvers av en rekke programmer, noe som driver analyse av store data, maskinlæring, prediktiv analyse og andre former for intelligent handling.

Hvorfor er datasjøer viktige for bedrifter?

Dagens svært tilkoblede, innsiktsdrevne verden ville ikke vært mulig uten datasjøløsninger. Det er fordi organisasjoner er avhengige av omfattende datasjøplattformer, for eksempel Azure Data Lake, for å holde rådata konsoliderte, integrerte, sikre og tilgjengelige. Skalerbare lagringsverktøy som Azure Data Lake Storage kan oppbevare og beskytte data på ett sentralt sted, noe som eliminerer siloer til en optimal kostnad. Dette legger grunnlaget for at brukerne kan utføre en rekke arbeidsbelastningskategorier, for eksempel behandling av store data, SQL-spørringer, tekstutvinning, strømmeanalyse og maskinlæring. Dataene kan deretter brukes til å mate oppstrøms datavisualisering og ad hoc-rapporteringsbehov. En moderne, ende-til-ende-dataplattform som Azure Synapse Analytics dekker de fullstendige behovene til en stordataarkitektur som er sentrert rundt datasjøen.

Brukseksempler for datasjø

Med en godt konstruert løsning er potensialet for innovasjon uendelig. Her er bare noen få eksempler på hvordan organisasjoner på tvers av en rekke bransjer bruker datasjøplattformer til å optimalisere veksten:

Direkteavspilling av medier. Abonnementsbaserte strømmeselskaper samler inn og behandler innsikt om kundeatferd, som de kan bruke til å forbedre anbefalingsalgoritmen.
Økonomi. Investeringsselskaper bruker de mest oppdaterte markedsdataene, som samles inn og lagres i sanntid, for effektiv håndtering av porteføljerisikoer.
Helsetjenester. Helseorganisasjoner er avhengige av store data for å forbedre kvaliteten på pleien for pasienter. Sykehus bruker store mengder historiske data til å strømlinjeforme pasientbaner, noe som resulterer i bedre resultater og reduserte kostnader for pleie.
Omnikanalforhandler. Forhandlere bruker datasjøer til å samle inn og konsolidere data som kommer inn fra flere berøringspunkter, inkludert mobil, sosiale nettverk, chat, muntlig omtale og personlig.
IoT. Maskinvaresensorer genererer enorme mengder halvstrukturerte til ustrukturerte data i den omkringliggende fysiske verden. Datasjøer gir et sentralt repositorium for denne informasjonen for fremtidig analyse.
Digital forsyningskjede. Datasjøer hjelper produsenter med å konsolidere uensartede lagringsdata, inkludert EDI-systemer, XML og JSON-er.
Salg. Dataforskere og salgsteknikere bygger ofte prediktive modeller for å bidra til å fastslå kundeatferd og redusere samlet frafall.

Datasjø kontra datalager

Nå vet du hva en datasjø er, hvorfor den er viktig, og hvordan den brukes på tvers av en rekke organisasjoner. Men hva er forskjellen på mellom en datasjø og et datalager? Og når er det aktuelt å bruke det over det andre?

Selv om datasjøer og datalagre er like ved at de både lagrer og behandler data, har hver av dem sine egne spesialiseringer, og derfor sine egne brukstilfeller. Derfor er det vanlig for en organisasjon på foretaksnivå å inkludere en datasjø og et datalager i analyseøkosystemet. Begge repositorier arbeider sammen for å danne et sikkert, ende-til-ende-system for lagring, behandling og raskere tid til innsikt.

En datasjø fanger opp både relasjonelle og ikke-relasjonelle data fra en rekke kilder – forretningsprogrammer, mobilapper, IoT-enheter, sosiale medier eller strømming – uten å måtte definere strukturen eller skjemaet til dataene før de leses. Skjema ved lesing sikrer at alle typer data kan lagres i råform. Som et resultat av dette kan datasjøer inneholde en rekke ulike datatyper, fra strukturerte til halvstrukturerte til ustrukturerte, i alle størrelser. Deres fleksible og skalerbare natur gjør dem avgjørende for å utføre komplekse former for dataanalyse ved hjelp av ulike typer verktøy for databehandling som Apache Spark eller Azure Machine Learning.

Et datalager er derimot relasjonelt av natur. Strukturen eller skjemaet er modellert eller forhåndsdefinert av forretnings- og produktkrav som er kuratert, tilpasset og optimalisert for SQL-spørringsoperasjoner. Mens en datasjø inneholder data av alle strukturtyper, inkludert rå og ubehandlede data, lagrer et datalager data som har blitt behandlet og transformert med et bestemt formål i tankene, som deretter kan brukes til kildeanalyse eller driftsrapportering. Dette gjør datalagre ideelle for å produsere mer standardiserte former for BI-analyse, eller for å betjene et forretningsbrukstilfelle som allerede er definert.

	Datasjø	Datalager
Type	Strukturert, halvstrukturert, ustrukturert	Strukturert
	Relasjonelt, ikke-relasjonelt	Relasjonelt
Skjema	Skjema ved lesing	Skjema ved skriving
Format	Rå, ufiltrert	Behandlet, gjennomgått
Kilder	Stordata, IoT, sosiale medier, strømming av data	Program, bedrift, transaksjonsdata, bunkerapportering
Skalerbarhet	Enkel å skalere til en lav pris	Vanskelig og dyrt å skalere
Brukere	Dataforskere, datateknikere	Datalagerfagfolk, forretningsanalytikere
Brukseksempler	Maskinlæring, prediktiv analyse, sanntidsanalyse	Kjernerapportering, BI

Datasjø kontra datasjøhus

Nå vet du forskjellen på en datasjø kontra et datalager. Men hva er forskjellen mellom en datasjø og et datasjøhus? Og er det nødvendig å ha begge?

Til tross for de mange fordelene er ikke en tradisjonell datasjø uten ulemper. Fordi datasjøer kan romme alle typer data fra alle typer kilder, kan det oppstå problemer knyttet til kvalitetskontroll, dataskade og feil partisjonering. En dårlig administrert datasjø skader ikke bare dataintegritet, men det kan også føre til flaskehalser, lav ytelse og sikkerhetsrisikoer.

Det er her at datasjøhus kommer inn i bildet. Et datasjøhus er en åpen standardbasert lagringsløsning som er som er mangesidig i sin natur. Den kan dekke behovene til dataforskere og ingeniører som utfører dyp dataanalyse og -behandling, i tillegg til behovene til tradisjonelle datalagerfagfolk som kuraterer og publiserer data for forretningsanalyse og rapporteringsformål. Det fine med datasjøhuset er at hver arbeidsbelastning kan fungere sømløst på toppen av datasjøen uten å måtte duplisere dataene til en annen strukturelt forhåndsdefinert database. Dette sikrer at alle arbeider med de mest oppdaterte dataene, samtidig som redundans reduseres.

Datasjøhus løser utfordringene ved tradisjonelle datasjøer ved å legge til et Delta Lake-lagringslag direkte på toppen av skydatasjøen. Lagringslaget gir en fleksibel analytisk arkitektur som kan håndtere ACID-transaksjoner (atomisitet, konsistens, isolasjon og varighet) for datapålitelighet, strømmeintegreringer og avanserte funksjoner som dataversjonskontroll og skjemahåndhevelse. Dette muliggjør en rekke analytiske aktiviteter over sjøen, alt uten å gå på bekostning av kjernedatakonsekvens. Selv om behovene til et sjøhus avhenger av hvor komplekse behovene dine er, gjør fleksibiliteten og rekkevidden det til en optimal løsning for mange foretak.

	Datasjø	Datasjøhus
Type	Strukturert, halvstrukturert, ustrukturert	Strukturert, halvstrukturert, ustrukturert
	Relasjonelt, ikke-relasjonelt	Relasjonelt, ikke-relasjonelt
Skjema	Skjema ved lesing	Skjema ved lesing, skjema ved skriving
Format	Rå, ufiltrert, behandlet, kuratert	Rå, ufiltrert, behandlet, kuratert, deltaformatfiler
Kilder	Stordata, IoT, sosiale medier, strømming av data	Store data, IoT, sosiale medier, strømming av data, program, forretning, transaksjonsdata, bunkerapportering
Skalerbarhet	Enkel å skalere til en lav pris	Enkel å skalere til en lav pris
Brukere	Datateknikere	Forretningsanalytikere, datateknikere, dataforskere
Brukseksempler	Store data, maskinlæring, prediktiv analyse	Kjernerapportering, BI, maskinlæring, prediktiv analyse

Hva er datasjøarkitektur?

I kjernen er en datasjø et lagerrepositorium uten egen settarkitektur. For å få mest mulig ut av funksjonene, krever den et bredt utvalg av verktøy, teknologier og databehandlingsmotorer som bidrar til å optimalisere integrering, lagring og behandling av data. Disse verktøyene arbeider sammen for å skape en sammenhengende lagvis arkitektur, en som er informert av store data og kjører på toppen av datasjøen. Denne arkitekturen kan også danne driftsstrukturen til et datasjøhus. Hver organisasjon har sin egen unike konfigurasjon, men de fleste datasjøhusarkitekturer har følgende:

Ressursbehandling og iverksetting. En ressursbehandler gjør det mulig for datasjøen å konsekvent utføre oppgaver ved å tildele riktig mengde data, ressurser og databehandlingskraft til de riktige stedene.
Koblinger for enkel tilgang. En rekke arbeidsflyter gjør det enkelt for brukere å få tilgang til – og dele – dataene de trenger i skjemaet de trenger dem i.
Pålitelig analyse. En god analysetjeneste skal være rask, skalerbar og distribuert. Den bør også støtte et variert utvalg av arbeidsbelastningskategorier på tvers av flere språk.
Dataklassifisering. Dataprofilering, katalogisering og arkivering hjelper organisasjoner med å holde oversikt over datainnhold, kvalitet, plassering og logg.
Prosesser for å pakke ut, laste inn og transformere (ELT). ELT refererer til prosessene der data trekkes ut fra flere kilder og lastes inn i datasjøens råsone, deretter renses og transformeres de etter uttrekking, slik at programmene enkelt kan bruke dem.
Sikkerhet og støtte. Databeskyttelsesverktøy som maskering, revisjon, kryptering og tilgangsovervåking sikrer at dataene dine forblir trygge og private.
Styring og forvaltning. For at datasjøplattformen skal kunne kjøre så problemfritt som mulig, bør brukerne læres opp på arkitekturkonfigurasjonen, i tillegg til anbefalte fremgangsmåter for data- og driftsadministrasjon.

Tilleggsressurser

Vanlige spørsmål

En datasjø er et sentralisert repositorium som tar inn, lagrer og muliggjør behandling av store mengder data i deres opprinnelige form. Den kan romme alle typer data, som deretter brukes til å drive analyse av store data, maskinlæring og andre former for intelligent handling.

Få mer informasjon om datasjøer
Organisasjoner på tvers av en rekke bransjer, inkludert detaljhandel, økonomi og underholdning, bruker datasjøplattformer til å lagre data, samle inn innsikt og forbedre den generelle kvaliteten på tjenestene deres. Verdipapirforetak bruker for eksempel datasjøer til å samle inn og behandle oppdaterte markedsdata, slik at de kan håndtere porteføljerisiko mer effektivt.
Datasjøer lagrer alle typer rådata, som dataforskere deretter kan bruke for en rekke prosjekter. Datalagre lagrer rensede og behandlede data, som deretter kan brukes til kildeanalyse eller driftsrapportering, i tillegg til spesifikke BI-brukstilfeller.

Utforsk datasjøer kontra datalagre
Et datasjøhus kombinerer elementer i en datasjø og et datalager for å danne en fleksibel ende-til-ende-løsning for datavitenskap og forretningsanalyseformål.

Få mer informasjon om datasjøhus
Absolutt. Store organisasjoner på tvers av alle bransjer er avhengige av de enorme datamengdene som er lagret i datasjøer, for å drive intelligent handling, få innsikt og vokse.

Oppdag fordelene ved datasjøer
Store datamengder, inkludert rå og ustrukturerte data, kan være vanskelig å administrere, noe som fører til flaskehalser, dataskade, problemer med kvalitetskontroll og ytelsesproblemer. Derfor er det viktig å opprettholde god styrings- og forvaltningspraksis for å hjelpe deg med å kjøre datasjøplattformen problemfritt.
Datasjøarkitektur refererer til den spesifikke konfigurasjonen av verktøy og teknologier som bidrar til å holde data fra datasjøen integrerte, tilgjengelige, organiserte og sikre.

Utforsk anbefalte fremgangsmåter for datasjøarkitektur

Gratis konto

Prøv tjenester innen Azure databehandling i skyen gratis i opptil 30 dager.

Prøv Azure gratis

Bruksbasert

Kom i gang med forbruksbetaling. Ingen forhåndsforpliktelser – avbryt når som helst.

Se nærmere på bruksbasert betaling

Hva er en datasjø?

Definisjon av datasjø

Hvorfor er datasjøer viktige for bedrifter?

Brukseksempler for datasjø

Datasjø kontra datalager

Datasjø kontra datasjøhus

Hva er datasjøarkitektur?

Tilleggsressurser

Utforsk

Løsningsideer

Veiledninger

Nettseminarer

Vanlige spørsmål