Vad är en datasjö?

Lär dig mer om skillnaden mellan datasjöar och informationslager. Lär dig att skapa en skalbar grund för alla dina analyser med Azure.

Definition av datasjö

I den här introduktionsguiden utforskar vi en datasjös många fördelar och användningsfall. Lär dig vad en datasjö är, varför den är viktig och upptäck skillnaden mellan datasjöar och informationslager. Men först ska vi definiera datasjö som begrepp.

En datasjö är en central lagringsplats där stora volymer data matas in och lagras i dess ursprungliga form. Data kan sedan bearbetas och användas som grund för en mängd olika analysbehov. Tack vare dess öppna, skalbara arkitektur kan en datasjö hantera alla typer av data från alla källor, från strukturerade (databastabeller, Excel-blad) och halvstrukturerade källor (XML-filer, webbsidor) till ostrukturerade (bilder, ljudfiler, tweets) utan att tumma på återgivningen. Datafilerna lagras vanligtvis i mellanlagrade zoner: råa, rensade och utvalda. På så sätt kan olika typer av användare använda data i dess olika former och tillgodose sina behov. Datasjöar ger en grundläggande datakonsekvens i en rad olika program som driver stordataanalys, maskininlärning, förutsägelseanalys och andra former av intelligenta åtgärder.

Varför är datasjöar viktiga för företag?

Dagens hyperuppkopplade, insiktsdrivna värld skulle inte vara möjlig utan datasjölösningar. Det beror på att organisationer förlitar sig på omfattande plattformar för datasjöar, till exempel Azure Data Lake, för att hålla rådata konsoliderade, integrerade, säkra och tillgängliga. Skalbara lagringsverktyg som Azure Data Lake Storage kan lagra och skydda data på ett och samma ställe, vilket eliminerar silor till en optimal kostnad. Det här ger användarna en grund för att utföra en mängd olika typer av arbetsuppgifter, till exempel stordatabearbetning, SQL-frågor, textutvinning, strömningsanalys och maskininlärning. Data kan sedan användas för att mata in överordnad datavisualisering och för nödvändig ad hoc-rapportering. En modern heltäckande dataplattform som Azure Synapse Analytics hanterar alla behov hos en arkitektur för stordata som är centrerad kring datasjön.

Användningsfall för datasjöar

Med en välstrukturerad lösning är potentialen för innovation oändlig. Här är några exempel på hur organisationer i en rad olika branscher använder datasjöplattformar för att optimera tillväxten:

Strömmande medier. Prenumerationsbaserade strömningsföretag samlar in och bearbetar insikter om kundbeteende, som de kan använda för att förbättra rekommendationsalgoritmen.
Ekonomi. Värdepappersföretag använder senaste marknadsdata som samlas in och lagras i realtid för att effektivt hantera portföljrisker.
Hälso- och sjukvård. Vårdorganisationer förlitar sig på stordata för att förbättra vårdkvaliteten för patienter. Sjukhus använder stora mängder historiska data för att effektivisera patienternas väg till vård, vilket leder till bättre resultat och lägre vårdkostnader.
Omnikanal-återförsäljare. Återförsäljare använder datasjöar för att samla in och konsolidera data som strömmar in från flera kontaktpunkter, som mobila enheter, sociala medier, chattar eller som förmedlas muntligen eller personligen.
IoT. Maskinvarusensorer genererar enorma mängder halvstrukturerade till ostrukturerade data i den omgivande fysiska världen. Datasjöar utgör en central lagringsplats för den här informationen för framtida analys.
Digital försörjningskedja. Datasjöar hjälper tillverkare att konsolidera olika lagringsdata, till exempel EDI-system, XML och JSON.
Försäljning. Dataexperter och säljtekniker skapar ofta förutsägelsemodeller för att fastställa kundbeteenden och minska kundbortfallet.

Datasjö jämfört med informationslager

Nu vet du vad en datasjö är, varför den är viktig och hur den används i en mängd olika organisationer. Vad är skillnaden mellan ett informationslager och en datasjö? Och när passar det bättre att använda den ena framför den andra?

Datasjöar och informationslager liknar varandra eftersom de både lagrar och bearbetar data, men var och en har sina egna specialiteter och därmed sina egna användningsfall. Därför är det vanligt att en organisation på företagsnivå lägger in både en datasjö och ett informationslager i sitt analysekosystem. Båda lagringsplatserna fungerar tillsammans för att skapa ett säkert heltäckande system för lagring, bearbetning och snabbare tid till insikt.

En datasjö samlar in både relationella och icke-relationella data från en mängd olika källor – affärsprogram, mobilappar, IoT-enheter, sociala medier eller strömning – utan att behöva definiera strukturen eller schemat för data förrän de har lästs. Schema vid läsning säkerställer att alla typer av data kan lagras i rå form. Därför kan datasjöar innehålla en mängd olika datatyper, från strukturerade och halvstrukturerade till ostrukturerade i valfri skala. Deras flexibla och skalbara karaktär gör att de behövs för att utföra komplexa former av dataanalys med hjälp av olika typer av verktyg för beräkningsbearbetning som Apache Spark eller Azure Machine Learning.

Ett informationslager, däremot, är relationellt till sin natur. Det innebär att strukturen eller schemat utformas eller bestäms av fördefinierade affärs- och produktkrav som är utvalda, anpassade och optimerade för SQL-frågeåtgärder. En datasjö innehåller data av alla strukturtyper, inklusive rådata och obearbetade data. Ett informationslager däremot, lagrar data som har behandlats och transformerats med ett specifikt syfte i åtanke, som sedan kan användas som källa för analys- eller driftsrapporter. Detta gör informationslager idealiska för att producera mer standardiserade former av BI-analys, eller för att hantera ett affärsanvändningsfall som redan har definierats.

	Datasjö	Informationslager
Typ	Strukturerade, halvstrukturerade, ostrukturerade	Strukturerade
	Relationella, icke-relationella	Relationella
Schema	Schema vid läsning	Schema vid skrivning
Format	Råa, ofiltrerade	Bearbetade, testade
Källor	Stordata, IoT, sociala medier, strömmande data	Program, företag, transaktionsdata, batchrapportering
Skalbarhet	Enkelt att skala till en låg kostnad	Svårt och dyrt att skala
Användare	Dataexperter, datatekniker	Informationslagerpersonal, affärsanalytiker
Användningsfall	Maskininlärning, förutsägelseanalys, realtidsanalys	Kärnrapportering, BI

Datasjö kontra datasjöhus

Nu förstår du skillnaden mellan en datasjö och ett informationslager. Men vad är skillnaden mellan en datasjö och ett datasjöhus? Och är det nödvändigt att ha båda?

Trots de många fördelarna är en traditionell datasjö inte helt utan nackdelar. Eftersom datasjöar kan rymma alla typer av data från alla typer av källor, kan det uppstå problem med kvalitetskontroll, skadade data och felaktig partitionering. En dåligt hanterad datasjö skadar inte bara dataintegriteten, utan kan också leda till flaskhalsar, långsamma prestanda och säkerhetsrisker.

Det är där datasjöhuset kommer in i bilden. Ett datasjöhus är en öppen standardbaserad lagringslösning som är mångsidig till sin natur. Det kan tillgodose behoven hos dataexperter och tekniker som utför djupanalys och bearbetning av data, liksom behoven hos experter på traditionella informationslager. De senare organiserar och publicerar data för business intelligence och rapportering. Det fina med datasjöhuset är att varje arbetsbelastning sömlöst kan arbeta ovanpå datasjön utan att data behöver dupliceras data till en annan databasmed en fördefinierad struktur. På så vis säkerställs att alla arbetar med de senaste data, samtidigt som redundansen minskas.

Datasjöhus hanterar utmaningar från traditionella datasjöar genom att lägga till ett Delta Lake-lagringslager direkt ovanpå molndatasjön. Lagringslagret ger en flexibel analysarkitektur som kan hantera ACID-transaktioner (atomicitet, konsekvens, isolering och hållbarhet) för datatillförlitlighet, integrering av strömning och avancerade funktioner som versionshantering av data och tillämpning av schema. Det här möjliggör en mängd analysaktiviteter över sjön, utan att man kompromissar med grundläggande datakonsekvens. Även om behovet av ett datasjöhus beror på hur komplexa dina behov är, gör dess flexibilitet och räckvidd det till en optimal lösning för många företagsorganisationer.

	Datasjö	Datasjöhus
Typ	Strukturerade, halvstrukturerade, ostrukturerade	Strukturerade, halvstrukturerade, ostrukturerade
	Relationella, icke-relationella	Relationella, icke-relationella
Schema	Schema vid läsning	Schema vid läsning, schema vid skrivning
Format	Råa, ofiltrerade, bearbetade, utvalda	Råa, ofiltrerade, bearbetade, utvalda, deltaformatfiler
Källor	Stordata, IoT, sociala medier, strömmande data	Stordata, IoT, sociala medier, strömmande data, program, företag, transaktionsdata, batchrapportering
Skalbarhet	Enkelt att skala till en låg kostnad	Enkelt att skala till en låg kostnad
Användare	Dataexperter	Affärsanalytiker, datatekniker, dataexperter
Användningsfall	Maskininlärning, förutsägelseanalys	Kärnrapportering, BI, maskininlärning, förutsägelseanalys

Vad är datasjöarkitektur?

I grunden är en datasjö en lagringsplats utan en egen arkitektur. För att utnyttja dess funktioner på bästa sätt krävs en lång rad verktyg, metoder och beräkningsmotorer som optimerar integrering, lagring och bearbetning av data. De här verktygen samverkar för att skapa en sammanhängande arkitektur i flera skikt, som grundar sig på stordata och körs ovanpå datasjön. Den här arkitekturen kan också utgöra driftsstrukturen för ett datasjöhus. Varje organisation har sin egen unika konfiguration, men de flesta datasjöhus-arkitekturer har följande egenskaper:

Resurshantering och orkestrering. Med en resurshanterare kan datasjön konsekvent utföra uppgifter genom att allokera rätt mängd data, resurser och databearbetning till rätt plats.
Anslutningsprogram för enkel åtkomst. En mängd olika arbetsflöden gör det möjligt för användarna att enkelt komma åt och dela de data de behöver i det format de behöver.
Pålitlig analys. En bra analystjänst ska vara snabb, skalbar och distribuerad. Den bör också ha stöd för ett stort antal olika arbetsbelastningskategorier på flera språk.
Dataklassificering. Dataprofilering, katalogisering och arkivering hjälper organisationer att hålla reda på informationens innehåll, kvalitet, plats och historik.
Processer för att extrahera, läsa in, transformera (ELT). ELT avser de processer genom vilka data extraheras från flera källor och läses in i datasjöns råzon för att sedan rensas och transformeras efter extrahering för att enkelt kunna användas i program.
Säkerhet och support. Dataskyddsverktyg som maskering, granskning, kryptering och åtkomstövervakning ser till att dina data förblir säkra och privata.
Styrning och förvaltning. För att datasjöplattformen ska fungera så smidigt som möjligt bör användarna bekanta sig med dess arkitektoniska utformning samt metodtips för data- och drifthantering.

Ytterligare resurser

Vanliga frågor och svar

En datasjö är en central lagringsplats där stora volymer data matas in, lagras och bearbetas i dess ursprungliga form. Den kan hantera alla typer av data, som sedan används för att driva stordataanalys, maskininlärning och andra former av intelligenta åtgärder.

Mer information om datasjöar
Organisationer inom en rad olika branscher, inklusive detaljhandel, ekonomi och underhållning, använder datasjöplattformar för att lagra data, samla in insikter och förbättra den övergripande kvaliteten på sina tjänster. Investmentbolag använder till exempel datasjöar för att samla in och bearbeta marknadsbaserade data, så att de effektivt kan hantera portföljrisker.
I datasjöar lagras alla typer av rådata, som dataexperter sedan kan använda för en mängd olika projekt. Informationslager lagrar rensade och bearbetade data, som sedan kan användas som källa för analys- eller driftrapporter, samt för specifika BI-användningsfall.

Utforska datasjöar kontra informationslager
I ett datasjöhus kombineras element från en datasjö med ett informationslager och bildar en flexibel, heltäckande lösning för datavetenskap och business intelligence.

Mer information om datasjöhus
Absolut. Stora organisationer i alla branscher använder de enorma mängder data som lagras i datasjöar för att driva intelligenta åtgärder, få insikter och växa.

Upptäck fördelarna med datasjöar
Stora mängder data, inklusive rådata och ostrukturerade data, kan vara svåra att hantera, vilket leder till flaskhalsar, skadade data, problem med kvalitetskontroll och prestanda. Därför är det viktigt att upprätthålla god styrnings- och förvaltningspraxis så att du kan köra datasjöplattformen smidigt.
Med datasjöarkitektur avses den specifika konfigurationen av verktyg och teknik som hjälper till att hålla data från datasjön integrerade, tillgängliga, organiserade och säkra.

Utforska metodtips för datasjöarkitektur

Kostnadsfritt konto

Prova Azure-tjänster inom molnbaserad databehandling kostnadsfritt i upp till 30 dagar.

Prova Azure kostnadsfritt

Betala allteftersom

Kom igång med användningsbaserad prissättning. Det finns inga förhandsåtaganden – avsluta när du vill.

Lär dig mer om användningsbaserad betalning

Vad är en datasjö?

Definition av datasjö

Varför är datasjöar viktiga för företag?

Användningsfall för datasjöar

Datasjö jämfört med informationslager

Datasjö kontra datasjöhus

Vad är datasjöarkitektur?

Ytterligare resurser

Utforska

Lösningsförslag

Guider

Webbseminarier

Vanliga frågor och svar