Vad är en datasjö?
Lär dig mer om skillnaden mellan datasjöar och informationslager. Lär dig att skapa en skalbar grund för alla dina analyser med Azure.
Definition av datasjö
I den här introduktionsguiden utforskar vi en datasjös många fördelar och användningsfall. Lär dig vad en datasjö är, varför den är viktig och upptäck skillnaden mellan datasjöar och informationslager. Men först ska vi definiera datasjö som begrepp.
En datasjö är en central lagringsplats där stora volymer data matas in och lagras i dess ursprungliga form. Data kan sedan bearbetas och användas som grund för en mängd olika analysbehov. Tack vare dess öppna, skalbara arkitektur kan en datasjö hantera alla typer av data från alla källor, från strukturerade (databastabeller, Excel-blad) och halvstrukturerade källor (XML-filer, webbsidor) till ostrukturerade (bilder, ljudfiler, tweets) utan att tumma på återgivningen. Datafilerna lagras vanligtvis i mellanlagrade zoner: råa, rensade och utvalda. På så sätt kan olika typer av användare använda data i dess olika former och tillgodose sina behov. Datasjöar ger en grundläggande datakonsekvens i en rad olika program som driver stordataanalys, maskininlärning, förutsägelseanalys och andra former av intelligenta åtgärder.
Varför är datasjöar viktiga för företag?
Dagens hyperuppkopplade, insiktsdrivna värld skulle inte vara möjlig utan datasjölösningar. Det beror på att organisationer förlitar sig på omfattande plattformar för datasjöar, till exempel Azure Data Lake, för att hålla rådata konsoliderade, integrerade, säkra och tillgängliga. Skalbara lagringsverktyg som Azure Data Lake Storage kan lagra och skydda data på ett och samma ställe, vilket eliminerar silor till en optimal kostnad. Det här ger användarna en grund för att utföra en mängd olika typer av arbetsuppgifter, till exempel stordatabearbetning, SQL-frågor, textutvinning, strömningsanalys och maskininlärning. Data kan sedan användas för att mata in överordnad datavisualisering och för nödvändig ad hoc-rapportering. En modern heltäckande dataplattform som Azure Synapse Analytics hanterar alla behov hos en arkitektur för stordata som är centrerad kring datasjön.
Användningsfall för datasjöar
Med en välstrukturerad lösning är potentialen för innovation oändlig. Här är några exempel på hur organisationer i en rad olika branscher använder datasjöplattformar för att optimera tillväxten:
- Strömmande medier. Prenumerationsbaserade strömningsföretag samlar in och bearbetar insikter om kundbeteende, som de kan använda för att förbättra rekommendationsalgoritmen.
- Ekonomi. Värdepappersföretag använder senaste marknadsdata som samlas in och lagras i realtid för att effektivt hantera portföljrisker.
- Hälso- och sjukvård. Vårdorganisationer förlitar sig på stordata för att förbättra vårdkvaliteten för patienter. Sjukhus använder stora mängder historiska data för att effektivisera patienternas väg till vård, vilket leder till bättre resultat och lägre vårdkostnader.
- Omnikanal-återförsäljare. Återförsäljare använder datasjöar för att samla in och konsolidera data som strömmar in från flera kontaktpunkter, som mobila enheter, sociala medier, chattar eller som förmedlas muntligen eller personligen.
- IoT. Maskinvarusensorer genererar enorma mängder halvstrukturerade till ostrukturerade data i den omgivande fysiska världen. Datasjöar utgör en central lagringsplats för den här informationen för framtida analys.
- Digital försörjningskedja. Datasjöar hjälper tillverkare att konsolidera olika lagringsdata, till exempel EDI-system, XML och JSON.
- Försäljning. Dataexperter och säljtekniker skapar ofta förutsägelsemodeller för att fastställa kundbeteenden och minska kundbortfallet.
Datasjö jämfört med informationslager
Nu vet du vad en datasjö är, varför den är viktig och hur den används i en mängd olika organisationer. Vad är skillnaden mellan ett informationslager och en datasjö? Och när passar det bättre att använda den ena framför den andra?
Datasjöar och informationslager liknar varandra eftersom de både lagrar och bearbetar data, men var och en har sina egna specialiteter och därmed sina egna användningsfall. Därför är det vanligt att en organisation på företagsnivå lägger in både en datasjö och ett informationslager i sitt analysekosystem. Båda lagringsplatserna fungerar tillsammans för att skapa ett säkert heltäckande system för lagring, bearbetning och snabbare tid till insikt.
En datasjö samlar in både relationella och icke-relationella data från en mängd olika källor – affärsprogram, mobilappar, IoT-enheter, sociala medier eller strömning – utan att behöva definiera strukturen eller schemat för data förrän de har lästs. Schema vid läsning säkerställer att alla typer av data kan lagras i rå form. Därför kan datasjöar innehålla en mängd olika datatyper, från strukturerade och halvstrukturerade till ostrukturerade i valfri skala. Deras flexibla och skalbara karaktär gör att de behövs för att utföra komplexa former av dataanalys med hjälp av olika typer av verktyg för beräkningsbearbetning som Apache Spark eller Azure Machine Learning.
Ett informationslager, däremot, är relationellt till sin natur. Det innebär att strukturen eller schemat utformas eller bestäms av fördefinierade affärs- och produktkrav som är utvalda, anpassade och optimerade för SQL-frågeåtgärder. En datasjö innehåller data av alla strukturtyper, inklusive rådata och obearbetade data. Ett informationslager däremot, lagrar data som har behandlats och transformerats med ett specifikt syfte i åtanke, som sedan kan användas som källa för analys- eller driftsrapporter. Detta gör informationslager idealiska för att producera mer standardiserade former av BI-analys, eller för att hantera ett affärsanvändningsfall som redan har definierats.
Datasjö | Informationslager | |
---|---|---|
Typ | Strukturerade, halvstrukturerade, ostrukturerade | Strukturerade |
Relationella, icke-relationella | Relationella | |
Schema | Schema vid läsning | Schema vid skrivning |
Format | Råa, ofiltrerade | Bearbetade, testade |
Källor | Stordata, IoT, sociala medier, strömmande data | Program, företag, transaktionsdata, batchrapportering |
Skalbarhet | Enkelt att skala till en låg kostnad | Svårt och dyrt att skala |
Användare | Dataexperter, datatekniker | Informationslagerpersonal, affärsanalytiker |
Användningsfall | Maskininlärning, förutsägelseanalys, realtidsanalys | Kärnrapportering, BI |
Datasjö kontra datasjöhus
Nu förstår du skillnaden mellan en datasjö och ett informationslager. Men vad är skillnaden mellan en datasjö och ett datasjöhus? Och är det nödvändigt att ha båda?
Trots de många fördelarna är en traditionell datasjö inte helt utan nackdelar. Eftersom datasjöar kan rymma alla typer av data från alla typer av källor, kan det uppstå problem med kvalitetskontroll, skadade data och felaktig partitionering. En dåligt hanterad datasjö skadar inte bara dataintegriteten, utan kan också leda till flaskhalsar, långsamma prestanda och säkerhetsrisker.
Det är där datasjöhuset kommer in i bilden. Ett datasjöhus är en öppen standardbaserad lagringslösning som är mångsidig till sin natur. Det kan tillgodose behoven hos dataexperter och tekniker som utför djupanalys och bearbetning av data, liksom behoven hos experter på traditionella informationslager. De senare organiserar och publicerar data för business intelligence och rapportering. Det fina med datasjöhuset är att varje arbetsbelastning sömlöst kan arbeta ovanpå datasjön utan att data behöver dupliceras data till en annan databasmed en fördefinierad struktur. På så vis säkerställs att alla arbetar med de senaste data, samtidigt som redundansen minskas.
Datasjöhus hanterar utmaningar från traditionella datasjöar genom att lägga till ett Delta Lake-lagringslager direkt ovanpå molndatasjön. Lagringslagret ger en flexibel analysarkitektur som kan hantera ACID-transaktioner (atomicitet, konsekvens, isolering och hållbarhet) för datatillförlitlighet, integrering av strömning och avancerade funktioner som versionshantering av data och tillämpning av schema. Det här möjliggör en mängd analysaktiviteter över sjön, utan att man kompromissar med grundläggande datakonsekvens. Även om behovet av ett datasjöhus beror på hur komplexa dina behov är, gör dess flexibilitet och räckvidd det till en optimal lösning för många företagsorganisationer.
Datasjö | Datasjöhus | |
---|---|---|
Typ | Strukturerade, halvstrukturerade, ostrukturerade | Strukturerade, halvstrukturerade, ostrukturerade |
Relationella, icke-relationella | Relationella, icke-relationella | |
Schema | Schema vid läsning | Schema vid läsning, schema vid skrivning |
Format | Råa, ofiltrerade, bearbetade, utvalda | Råa, ofiltrerade, bearbetade, utvalda, deltaformatfiler |
Källor | Stordata, IoT, sociala medier, strömmande data | Stordata, IoT, sociala medier, strömmande data, program, företag, transaktionsdata, batchrapportering |
Skalbarhet | Enkelt att skala till en låg kostnad | Enkelt att skala till en låg kostnad |
Användare | Dataexperter | Affärsanalytiker, datatekniker, dataexperter |
Användningsfall | Maskininlärning, förutsägelseanalys | Kärnrapportering, BI, maskininlärning, förutsägelseanalys |
Vad är datasjöarkitektur?
I grunden är en datasjö en lagringsplats utan en egen arkitektur. För att utnyttja dess funktioner på bästa sätt krävs en lång rad verktyg, metoder och beräkningsmotorer som optimerar integrering, lagring och bearbetning av data. De här verktygen samverkar för att skapa en sammanhängande arkitektur i flera skikt, som grundar sig på stordata och körs ovanpå datasjön. Den här arkitekturen kan också utgöra driftsstrukturen för ett datasjöhus. Varje organisation har sin egen unika konfiguration, men de flesta datasjöhus-arkitekturer har följande egenskaper:
- Resurshantering och orkestrering. Med en resurshanterare kan datasjön konsekvent utföra uppgifter genom att allokera rätt mängd data, resurser och databearbetning till rätt plats.
- Anslutningsprogram för enkel åtkomst. En mängd olika arbetsflöden gör det möjligt för användarna att enkelt komma åt och dela de data de behöver i det format de behöver.
- Pålitlig analys. En bra analystjänst ska vara snabb, skalbar och distribuerad. Den bör också ha stöd för ett stort antal olika arbetsbelastningskategorier på flera språk.
- Dataklassificering. Dataprofilering, katalogisering och arkivering hjälper organisationer att hålla reda på informationens innehåll, kvalitet, plats och historik.
- Processer för att extrahera, läsa in, transformera (ELT). ELT avser de processer genom vilka data extraheras från flera källor och läses in i datasjöns råzon för att sedan rensas och transformeras efter extrahering för att enkelt kunna användas i program.
- Säkerhet och support. Dataskyddsverktyg som maskering, granskning, kryptering och åtkomstövervakning ser till att dina data förblir säkra och privata.
- Styrning och förvaltning. För att datasjöplattformen ska fungera så smidigt som möjligt bör användarna bekanta sig med dess arkitektoniska utformning samt metodtips för data- och drifthantering.
Ytterligare resurser
Vanliga frågor och svar
-
En datasjö är en central lagringsplats där stora volymer data matas in, lagras och bearbetas i dess ursprungliga form. Den kan hantera alla typer av data, som sedan används för att driva stordataanalys, maskininlärning och andra former av intelligenta åtgärder.
-
Organisationer inom en rad olika branscher, inklusive detaljhandel, ekonomi och underhållning, använder datasjöplattformar för att lagra data, samla in insikter och förbättra den övergripande kvaliteten på sina tjänster. Investmentbolag använder till exempel datasjöar för att samla in och bearbeta marknadsbaserade data, så att de effektivt kan hantera portföljrisker.
-
I datasjöar lagras alla typer av rådata, som dataexperter sedan kan använda för en mängd olika projekt. Informationslager lagrar rensade och bearbetade data, som sedan kan användas som källa för analys- eller driftrapporter, samt för specifika BI-användningsfall.
-
I ett datasjöhus kombineras element från en datasjö med ett informationslager och bildar en flexibel, heltäckande lösning för datavetenskap och business intelligence.
-
Absolut. Stora organisationer i alla branscher använder de enorma mängder data som lagras i datasjöar för att driva intelligenta åtgärder, få insikter och växa.
-
Stora mängder data, inklusive rådata och ostrukturerade data, kan vara svåra att hantera, vilket leder till flaskhalsar, skadade data, problem med kvalitetskontroll och prestanda. Därför är det viktigt att upprätthålla god styrnings- och förvaltningspraxis så att du kan köra datasjöplattformen smidigt.
-
Med datasjöarkitektur avses den specifika konfigurationen av verktyg och teknik som hjälper till att hålla data från datasjön integrerade, tillgängliga, organiserade och säkra.
Kostnadsfritt konto
Prova Azure-tjänster inom molnbaserad databehandling kostnadsfritt i upp till 30 dagar.
Betala allteftersom
Kom igång med användningsbaserad prissättning. Det finns inga förhandsåtaganden – avsluta när du vill.