Hva er en datasjø?
Finn ut om forskjellen på datasjøer og datalager. Oppdag hvordan du bygger et skalerbart grunnlag for all analyse med Azure.
Datasjødefinisjon
Denne introduksjonsveiledningen utforsker de mange fordelene og brukstilfellene til en datasjø. Finn ut hva en datasjø er, hvorfor den er viktig, og oppdag forskjellen mellom datasjøer og datalagre. Men først skal vi definere datasjø som en term.
En datasjø er et sentralisert repositorium som inntar og lagrer store mengder data i sin opprinnelige form. Dataene kan deretter behandles og brukes som grunnlag for en rekke analytiske behov. På grunn av den åpne, skalerbare arkitekturen har en datasjø plass til alle typer data fra en hvilken som helst kilde, fra strukturerte (databasetabeller, Excel-ark) til halvstrukturerte (XML-filer, nettsider) til ustrukturerte (bilder, lydfiler, tweeter), uten å lage gjengivelse. Datafilene lagres vanligvis i trinnvise soner – rå, renset og kuratert – slik at ulike typer brukere kan bruke dataene i de ulike skjemaene til å dekke deres behov. Data laker gir kjernedatakonsekvens på tvers av en rekke programmer, som driver stordataanalyse, maskinlæring, prediktiv analyse og andre former for intelligent handling.
Hvorfor er datasjøer viktig for bedrifter?
Dagens svært tilkoblede, innsiktsdrevne verden ville ikke vært mulig uten datasjøløsninger. Det er fordi organisasjoner er avhengige av omfattende datasjøplattformer, for eksempel Azure Data Lake, for å holde rådata konsolidert, integrert, sikkert og tilgjengelig. Skalerbare lagringsverktøy som Azure Data Lake Storage kan oppbevare og beskytte data på ett sentralt sted, noe som eliminerer siloer til en optimal kostnad. Dette legger grunnlaget for at brukerne kan utføre en rekke arbeidsbelastningskategorier, for eksempel behandling av store data, SQL-spørringer, tekstutvinning, strømmeanalyse og maskinlæring. Dataene kan deretter brukes til å mate oppstrøms datavisualisering og ad hoc-rapporteringsbehov. En moderne, ende-til-ende-dataplattform som Azure Synapse Analytics dekker de fullstendige behovene til en stordataarkitektur som er sentrert rundt datasjøen.
Brukstilfeller for datasjø
Med en godt utformet løsning er potensialet for innovasjon uendelig. Her er bare noen eksempler på hvordan organisasjoner på tvers av en rekke bransjer bruker datasjøplattformer til å optimalisere veksten:
- Strømmer media. Abonnementsbaserte strømmeselskaper samler inn og behandler innsikt om kundeatferd, som de kan bruke til å forbedre anbefalingsalgoritmen.
- Finans. Investeringsselskaper bruker de mest oppdaterte markedsdataene, som samles inn og lagres i sanntid, for effektiv håndtering av porteføljerisikoer.
- Helsetjenester. Helseorganisasjoner er avhengige av store data for å forbedre kvaliteten på omsorgen for pasienter. Sykehus bruker enorme mengder historiske data for å strømlinjeforme pasientforløp, noe som resulterer i bedre resultater og reduserte behandlingskostnader.
- Omnikanal-forhandler. Forhandlere bruker datasjøer til å fange opp og konsolidere data som kommer inn fra flere berøringspunkter, inkludert mobil, sosialt, chat, ord i munnen og personlig.
- IoT. Maskinvaresensorer genererer enorme mengder semi-strukturert til ustrukturert data om den omkringliggende fysiske verden. Datasjøer gir et sentralt oppbevaringssted for denne informasjonen å leve i for fremtidig analyse.
- Digital forsyningskjede. Datasjøer hjelper produsenter med å konsolidere ulike lagringsdata, inkludert EDI-systemer, XML og JSON-er.
- Salg. Dataforskere og salgsingeniører bygger ofte prediktive modeller for å bidra til å bestemme kundens atferd og redusere samlet frafall.
Datasjø kontra datalager
Nå vet du hva en datasjø er, hvorfor det er viktig, og hvordan den brukes på tvers av en rekke organisasjoner. Men hva er forskjellen mellom en datasjø og et datalager? Og når er det aktuelt å bruke det over det andre?
Selv om datasjøer og datalagre er like ved at de både lagrer og behandler data, har hver av dem sine egne spesialoppgaver, og derfor sine egne brukstilfeller. Derfor er det vanlig for en organisasjon på bedriftsnivå å inkludere en datasjø og et datalager i analyseøkosystemet. Begge repositorier arbeider sammen for å danne et sikkert, ende-til-ende-system for lagring, behandling og raskere tid til innsikt.
En datasjø fanger både relasjonelle og ikke-relasjonelle data fra en rekke kilder – forretningsapplikasjoner, mobilapper, IoT-enheter, sosiale medier eller strømming – uten å måtte definere strukturen eller skjemaet til dataene før de er lest. Skjema ved lesing sikrer at alle typer data kan lagres i råform. Som et resultat kan datasjøer inneholde et bredt utvalg av datatyper, fra strukturert til semi-strukturert til ustrukturert, i alle skalaer. Deres fleksible og skalerbare natur gjør dem essensielle for å utføre komplekse former for dataanalyse ved å bruke forskjellige typer databehandlingsverktøy som Apache Spark eller Azure Machine Learning.
Et datavarehus har derimot relasjonsmessig karakter. Strukturen eller skjemaet er modellert eller forhåndsdefinert av forretnings- og produktkrav som er kuratert, konform og optimalisert for SQL-spørringsoperasjoner. Mens en datasjø inneholder data av alle strukturtyper, inkludert rå og ubehandlede data, lagrer et datalager data som har blitt behandlet og transformert med et bestemt formål i tankene, som deretter kan brukes til kildeanalyse eller driftsrapportering. Dette gjør datalagre ideelle for å produsere mer standardiserte former for BI-analyse, eller for å betjene et forretningsbrukstilfelle som allerede er definert.
Datasjø | Datalager | |
---|---|---|
Type | Strukturert, halvstrukturert, ustrukturert | Strukturert |
Relasjonell, ikke-relasjonell | Relasjonelt | |
Skjema | Skjema ved lesing | Skjema ved skriving |
Format | Rå, ufiltrert | Behandlet, gjennomgått |
Kilder | Store data, IoT, sosiale medier, strømming av data | Program, bedrift, transaksjonsdata, bunkerapportering |
Skalerbarhet | Enkel å skalere til en lav pris | Vanskelig og kostbart å skalere |
Brukere | Dataforskere, datateknikere | Datalagerfagfolk, forretningsanalytikere |
Brukseksempler | Maskinlæring, prediktiv analyse, sanntidsanalyse | Kjernerapportering, BI |
Datasjø kontra datasjøhus
Nå vet du forskjellen mellom en datasjø kontra et datavarehus. Men hva er forskjellen mellom en datasjø og et datasjøhus? Og er det nødvendig å ha begge deler?
Til tross for mange fordeler, er en tradisjonell datasjø ikke uten sine ulemper. Fordi datasjøer kan romme alle typer data fra alle typer kilder, kan det oppstå problemer knyttet til kvalitetskontroll, dataskade og feil partisjonering. En dårlig administrert datasjø svekker ikke bare dataintegritet, men det kan også føre til flaskehalser, lav ytelse og sikkerhetsrisikoer.
Det er der datasjøhuset kommer inn i bildet. Et datasjøhus er en åpen standardbasert lagringsløsning som er mangefasettert i natur. Den kan håndtere behovene til dataforskere og ingeniører som utfører dyp dataanalyse og -behandling, i tillegg til behovene til tradisjonelle datalagerfagfolk som kuraterer og publiserer data for forretningsintelligens- og rapporteringsformål. Det fine med sjøhuset er at hver arbeidsbelastning sømløst kan operere på toppen av datasjøen uten å måtte duplisere dataene til en annen strukturelt forhåndsdefinert database. Dette sikrer at alle arbeidere med de mest oppdaterte dataene, samtidig som redundans reduseres.
Datasjøhus løser utfordringene ved tradisjonelle datasjøer ved å legge til et Delta Lake-lagringslag direkte på toppen av skydatasjøen. Lagringslaget gir en fleksibel analytisk arkitektur som kan håndtere ACID-transaksjoner (atomisitet, konsistens, isolasjon og holdbarhet) for datapålitelighet, strømmeintegreringer og avanserte funksjoner som dataversjonskontroll og skjemahåndhevelse. Dette muliggjør en rekke analytiske aktiviteter over datasjøen, alt uten å gå på bekostning av kjernedatakonsekvens. Mens nødvendigheten av et sjøhus avhenger av hvor komplekse behovene dine er, gjør dets fleksibilitet og rekkevidde det til en optimal løsning for mange bedriftsorganisasjoner.
Datasjø | Datasjøhus | |
---|---|---|
Type | Strukturert, halvstrukturert, ustrukturert | Strukturert, halvstrukturert, ustrukturert |
Relasjonell, ikke-relasjonell | Relasjonell, ikke-relasjonell | |
Skjema | Skjema ved lesing | Skjema ved lesing, skjema ved skriving |
Format | Rå, ufiltrert, behandlet, kuratert | Rå, ufiltrert, behandlet, kuratert, deltaformatfiler |
Kilder | Store data, IoT, sosiale medier, strømming av data | Stordata, IoT, sosiale medier, strømmedata, program, bedrift, transaksjonsdata, partirapportering |
Skalerbarhet | Enkel å skalere til en lav pris | Enkel å skalere til en lav pris |
Brukere | Dataforskere | Forretningsanalytikere, dataingeniører, dataforskere |
Brukseksempler | Maskinlæring, prediktiv analyse | Kjernerapportering, BI, maskinlæring, prediktiv analyse |
Hva er datasjøarkitektur?
I kjernen er en datasjø et lagerrepositorium uten egen arkitektur. For å få mest mulig ut av funksjonene, krever det et bredt utvalg av verktøy, teknologier og databehandlingsmotorer som bidrar til å optimalisere integrering, lagring og behandling av data. Disse verktøyene arbeider sammen for å skape en sammenhengende lagvis arkitektur, en som er informert av store data og kjører på toppen av datasjøen. Denne arkitekturen kan også danne driftsstrukturen til et datasjøhus. Hver organisasjon har sin egen unike konfigurasjon, men de fleste datasjøhus-arkitekturer har følgende:
- Ressursstyring og orkestrering. En ressursadministrator gjør det mulig for datasjøen å utføre oppgaver konsekvent ved å tildele riktig mengde data-, ressurser- og databehandlingskraft til de riktige stedene.
- Koblinger for enkel tilgang. En rekke arbeidsflyter lar brukere enkelt få tilgang til – og dele – dataene de trenger i den formen de trenger dem i.
- Pålitelig analyse. En god analysetjeneste bør være rask, skalerbar og distribuert. Den bør også støtte et mangfold av arbeidsbelastningskategorier på tvers av flere språk.
- Dataklassifisering. Dataprofilering, katalogisering og arkivering hjelper organisasjoner med å holde oversikt over datainnhold, kvalitet, plassering og logg.
- Trekke ut, laste, transformere (ELT) prosesser. ELT refererer til prosessene der data trekkes ut fra flere kilder og lastes inn i datasjøens råsone, deretter renses og transformeres etter uttrekking, slik at programmene enkelt kan bruke det.
- Sikkerhet og støtte. Databeskyttelsesverktøy som maskering, overvåking, kryptering og tilgangsovervåking sikrer at dataene forblir trygge og private.
- Forvalter og forvalterskap. For at datasjøplattformen skal kunne kjøre så problemfritt som mulig, bør brukerne læres opp på arkitekturkonfigurasjonen, i tillegg til anbefalte fremgangsmåter for data- og driftsadministrasjon.
Tilleggsressurser
Utforsk
Løsningsideer
Vanlige spørsmål
-
En datasjø er et sentralisert repositorium som inntar, lagrer og tillater behandling av store mengder data i sin opprinnelige form. Den har plass til alle typer data, som deretter brukes til å drive dataanalyse av store data, maskinlæring og andre former for intelligent handling.
-
Organisasjoner på tvers av en rekke bransjer, inkludert detaljhandel, økonomi og underholdning, bruker datasjøplattformer til å lagre data, samle inn innsikt og forbedre den generelle kvaliteten på tjenestene. Investeringsselskaper bruker for eksempel datasjøer til å samle inn og behandle markedsdata, slik at de kan håndtere porteføljerisikoer mer effektivt.
-
Datasjøer lagrer alle typer rådata, som dataforskere deretter kan bruke til en rekke prosjekter. Datavarehus lagrer rensede og behandlede data, som deretter kan brukes til kildeanalyse- eller driftsrapportering, i tillegg til spesifikke BI-brukstilfeller.
-
Et datasjøhus kombinerer elementer fra en datasjø og et datavarehus for å danne en fleksibel, ende-til-ende-løsning for datavitenskap og forretningsanalyseformål.
-
Absolutt. Store organisasjoner på tvers av alle bransjer er avhengige av de enorme datamengdene som er lagret i datasjøer for å drive intelligent handling, få innsikt og vokse.
-
Store mengder data, inkludert rådata og ustrukturerte data, kan være vanskelig å administrere, noe som fører til flaskehalser, ødelagte data, problemer med kvalitetskontroll og ytelsesproblemer. Derfor er det viktig å opprettholde god styring og forvaltningspraksis for å hjelpe deg med å drive datasjøplattformen problemfritt.
-
Datasjøarkitektur refererer til den spesifikke konfigurasjonen av verktøy og teknologier som bidrar til å holde data fra datasjø integrert, tilgjengelig, organisert og sikker.
Gratis konto
Prøv Azure-tjenester for databehandling i skyen gratis i opptil 30 dager.
Betal for forbruk
Kom i gang med forbruksbaserte priser. Det er ingen forhåndsforpliktelse – avbryt når som helst.