Vad är en datasjö?
Lär dig mer om skillnaden mellan datasjöar och informationslager. Upptäck hur du skapar en skalbar grund för alla dina analyser med Azure.
Definition av datasjö
Den här introduktionsguiden utforskar de många fördelarna och användningsfallen för en datasjö. Lär dig vad en datasjö är, varför den är viktig och upptäck skillnaden mellan datasjöar och informationslager. Men först ska vi definiera datasjö som en term.
En datasjö är en centraliserad lagringsplats som matar in och lagrar stora mängder data i sin ursprungliga form. Data kan sedan bearbetas och användas som grund för en mängd olika analysbehov. Tack vare dess öppna, skalbara arkitektur kan en datasjö hantera alla typer av data och källor – från strukturerade (databastabeller, Excel-blad) och halvstrukturerade (XML-filer, webbsidor) till ostrukturerade källor (bilder, ljudfiler, tweets), utan att tumma på återgivningen. Datafilerna lagras vanligtvis i mellanlagrade zoner: råa, rensade och kuraterade. På så sätt kan olika typer av användare använda data i dess olika former och tillgodose sina behov. Datasjöar tillhandahåller en grundläggande datakonsekvens i en rad olika program, som driver stordataanalys, maskininlärning, förutsägelseanalys och andra former av intelligenta åtgärder.
Varför är datasjöar viktiga för företag?
Dagens hyperuppkopplade, insiktsdrivna värld skulle inte vara möjlig utan datasjölösningar. Det beror på att organisationer förlitar sig på heltäckande datasjöplattformar som Azure Data Lake för att hålla rådata konsoliderade, integrerade, säkra och tillgängliga. Skalbara lagringsverktyg som Azure Data Lake Storage kan lagra och skydda data på ett och samma ställe, vilket eliminerar silor till en optimal kostnad. Detta ger användarna en grund för att utföra en mängd olika typer av arbetsuppgifter, till exempel stordatabearbetning, SQL-frågor, textutvinning, strömningsanalys och maskininlärning. Data kan sedan användas för att mata in överordnad datavisualisering och för nödvändig ad hoc-rapportering. En modern heltäckande dataplattform som Azure Synapse Analytics hanterar alla behov hos en arkitektur för stordata som är centrerad kring datasjön.
Användningsfall för datasjöar
Med en välbyggd lösning är potentialen för innovation oändlig. Här följer några exempel på hur organisationer inom en rad olika branscher använder datasjöplattformar för att optimera tillväxten:
- Strömmande media. Prenumerationsbaserade strömningsföretag samlar in och bearbetar insikter om kundbeteende, som de kan använda för att förbättra rekommendationsalgoritmen.
- Ekonomi. Värdepappersföretag använder senaste marknadsdata som samlas in och lagras i realtid för att effektivt hantera portföljrisker.
- Hälso- och sjukvård. Hälso- och sjukvårdsorganisationer förlitar sig på stordata för att förbättra kvaliteten på patienternas vård. Sjukhus använder stora mängder historiska data för att effektivisera patienternas väg till vård, vilket leder till bättre resultat och minskade vårdkostnader.
- Omnikanal-återförsäljare. Återförsäljare använder datasjöar för att fånga in och konsolidera data som strömmar in från flera touchpoints, som mobila enheter, sociala medier eller chatt eller förmedlas muntligen eller personligen.
- IoT. Hårdvarusensorer genererar väldigt stora mängder halvstrukturerade och ostrukturerade data i den omgivande fysiska världen. Datasjöar tillhandahåller en central lagringsplats för den här informationen för framtida analys.
- Den digitala försörjningskedjan. Datasjöar hjälper tillverkare att konsolidera olika lagringsdata, som EDI-system, XML och JSON.
- Försäljning. Dataforskare och säljtekniker skapar ofta förutsägelsemodeller för att fastställa kundbeteenden och minska kundbortfallet.
Datasjö kontra informationslager
Nu vet du vad en datasjö är, varför den är viktig och hur den används i en mängd olika organisationer. Men vad är skillnaden mellan en datasjö och ett informationslager? Och när passar det bättre att använda den ena framför den andra?
Även om datasjöar och informationslager liknar varandra och båda lagrar och bearbetar data, har var och en sina egna specialiteter och därmed sina egna användningsfall. Det är därför det är vanligt att organisationer på företagsnivå inkluderar en datasjö och ett informationslager i sina analytiska ekosystem. Båda lagringsplatserna arbetar tillsammans för att skapa ett säkert heltäckande system för lagring, bearbetning och snabbare tid till insikt.
En datasjö fångar in både relationella och icke-relationella data från en mängd olika källor – affärsprogram, mobilappar, IoT-enheter, sociala medier eller direktuppspelning – utan att behöva definiera strukturen eller schemat för data tills de har lästs. Vid läsning av schema säkerställer du att alla typer av data kan lagras i rå form. Som ett resultat av detta kan datasjöar innehålla en mängd olika datatyper i varierande skala, från strukturerade och halvstrukturerade till ostrukturerade data. Deras flexibla och skalbara karaktär gör att de behövs för att utföra komplexa former av dataanalys med hjälp av olika typer av verktyg för beräkningsbearbetning, till exempel Apache Spark eller Azure Machine Learning.
Ett informationslager är däremot relationellt till sin natur. Strukturen eller schemat modelleras eller fördefinieras av affärs- och produktkrav som kureras, anpassas och optimeras för SQL-frågeåtgärder. En datasjö lagrar data av alla strukturtyper, som rådata och obearbetade data. Ett informationslager däremot lagrar data som har behandlats och transformerats med ett specifikt syfte i åtanke, som sedan kan användas som källa för analys- eller driftsrapporter. Detta gör informationslager idealiska för att producera mer standardiserade former av BI-analys eller för att betjäna ett affärsanvändningsfall som redan har definierats.
Datasjö | Informationslager | |
---|---|---|
Typ | Strukturerad, halvstrukturerad, ostrukturerad | Strukturerad |
Relationell, icke-relationell | Relationell | |
Schema | Schema vid läsning | Schema vid skrivning |
Format | Rå, ofiltrerad | Bearbetad, kontrollerad |
Källor | Stordata, IoT, sociala medier, strömmande data | Program, företag, transaktionsdata, batchrapportering |
Skalbarhet | Lätt att skala till en låg kostnad | Svårt och dyrt att skala |
Användare | Dataforskare, dataingenjörer | Data Warehouse-experter, affärsanalytiker |
Användningsfall | Maskininlärning, förutsägelseanalys, realtidsanalys | Kärnrapporter, BI |
Datasjö jämfört med datasjöhus
Nu förstår du skillnaden mellan en datasjö och ett informationslager. Men vad är skillnaden mellan en datasjö och ett datasjöhus? Och är det nödvändigt att ha båda?
Trots de många fördelarna är en traditionell datasjö inte helt utan nackdelar. Eftersom datasjöar kan rymma alla typer av data från olika typer av källor kan det uppstå problem med kvalitetskontroll, skadade data och felaktig partitionering. En dåligt hanterad datasjö skadar inte bara dataintegriteten, men kan också leda till flaskhalsar, långsam prestanda och säkerhetsrisker.
Det är där datasjöhuset kommer in i bilden. Ett datasjöhus är en öppen standardbaserad lagringslösning som är mångsidig till sin natur. Den kan tillgodose behoven hos dataforskare och dataingenjörer som utför djupanalys och bearbetning av data, liksom behoven hos experter på traditionella informationslager. De senare organiserar och publicerar data för business intelligence och rapportering. Det fina med datasjöhuset är att varje arbetsbelastning sömlöst kan arbeta ovanpå datasjön utan att data behöver dupliceras till en annan databas med en fördefinierad struktur. Detta säkerställer att alla arbetar med de senaste data, samtidigt som redundansen minskas.
Datasjöhus hanterar utmaningar från traditionella datasjöar genom att lägga till ett Delta Lake-lagringslager direkt ovanpå molndatasjön. Lagringslagret ger en flexibel analysarkitektur som kan hantera ACID-transaktioner (atomicitet, konsekvens, isolering och hållbarhet) för datatillförlitlighet, integration av direktuppspelning och avancerade funktioner som versionshantering av data och schematillämpning. Detta möjliggör ett brett urval av analysaktiviteter över sjön, utan att kompromissa med grundläggande datakonsekvens. Även om behovet av en datasjö beror på hur komplexa dina behov är, gör dess flexibilitet och omfång den till en optimal lösning för många företagsorganisationer.
Datasjö | Datasjöhus | |
---|---|---|
Typ | Strukturerad, halvstrukturerad, ostrukturerad | Strukturerad, halvstrukturerad, ostrukturerad |
Relationell, icke-relationell | Relationell, icke-relationell | |
Schema | Schema vid läsning | Schema vid läsning, schema vid skrivning |
Format | Rå, ofiltrerad, bearbetad, kuraterad | Råa, ofiltrerade, bearbetade, kuraterade filer i delta-format |
Källor | Stordata, IoT, sociala medier, strömmande data | Stordata, IoT, sociala medier, strömmande data, program, företag, transaktionsdata, batchrapportering |
Skalbarhet | Lätt att skala till en låg kostnad | Lätt att skala till en låg kostnad |
Användare | Dataforskare | Affärsanalytiker, dataingenjörer, dataforskare |
Användningsfall | Maskininlärning, förutsägelseanalys | Kärnrapportering, BI, maskininlärning, förutsägelseanalys |
Vad är datasjöarkitektur?
I grunden är en datasjö ett lagringslager utan en egen arkitektur. För att utnyttja dess funktioner på bästa sätt krävs en lång rad verktyg, tekniker och beräkningsmotorer som optimerar integrering, lagring och bearbetning av data. De här verktygen arbetar tillsammans för att skapa en sammanhängande arkitektur i flera skikt, som grundar sig på stordata och körs ovanpå datasjön. Den här arkitekturen kan också utgöra driftstrukturen för ett datasjöhus. Varje organisation har sin egen unika konfiguration, men de flesta datasjöhus-arkitekturer har följande egenskaper:
- Resurshantering och orkestrering. Med en resurshanterare kan datasjön konsekvent utföra uppgifter genom att allokera rätt mängd data, resurser och beräkningskraft till rätt plats.
- Kopplingar för enkel åtkomst. En mängd olika arbetsflöden gör det möjligt för användarna att enkelt komma åt och dela de data de behöver i det format de behöver.
- Pålitlig analys. En bra analystjänst ska vara snabb, skalbar och distribuerad. Den bör också stödja ett stort antal olika kategorier av arbetsbelastningar på flera språk.
- Dataklassificering. Dataprofilering, katalogisering och arkivering hjälper organisationer att hålla reda på datas innehåll, kvalitet, plats och historik.
- Processer för att extrahera, läsa in, transformera (ELT). ELT avser de processer genom vilka data extraheras från flera källor och läses in i datasjöns råzon, för att sedan rensas och transformeras efter extrahering för att enkelt kunna användas i program.
- Säkerhet och support. Dataskyddsverktyg som maskering, granskning, kryptering och åtkomstövervakning ser till att dina data förblir säkra och privata.
- Styrning och förvaltning. För att datasjöplattformen ska fungera så smidigt som möjligt bör användarna bekanta sig med dess arkitektoniska utformning samt metodtips för data- och drifthantering.
Ytterligare resurser
Utforska
Lösningsidéer
Vanliga frågor och svar
-
En datasjö är en centraliserad lagringsplats som matar in, lagrar och tillåter bearbetning av stora volymer data i sin ursprungliga form. Den kan rymma alla typer av data som sedan används för att driva stordataanalys, maskininlärning och andra former av intelligenta åtgärder.
-
Organisationer inom en rad olika branscher, inklusive detaljhandel, ekonomi och underhållning, använder datasjöplattformar för att lagra data, samla in insikter och förbättra den övergripande kvaliteten på sina tjänster. Investmentbolag använder till exempel datasjöar för att samla in och bearbeta marknadsbaserade data, så att de kan hantera portföljrisker mer effektivt.
-
Datasjöar lagrar alla typer av rådata, som dataforskare sedan kan använda för en mängd olika projekt. Informationslager lagrar rensade och bearbetade data, som sedan kan användas som källa för analys- eller driftsrapporter, samt för specifika BI-användningsfall.
-
Ett datasjöhus kombinerar element från en datasjö och ett informationslager och skapar en flexibel heltäckande lösning för datavetenskap och business intelligence.
-
Absolut. Stora organisationer inom alla branscher förlitar sig på de stora mängder data som lagras i datasjöar för att driva intelligenta åtgärder, få insikter och växa.
-
Stora mängder data, inklusive rådata och ostrukturerade data, kan vara svåra att hantera, vilket leder till flaskhalsar, skadade data, kvalitetskontrollproblem och prestandaproblem. Därför är det viktigt att upprätthålla god styrnings- och hanteringspraxis så att du kan köra datasjöplattformen smidigt.
-
Datasjöarkitekturen avser den specifika konfigurationen av verktyg och tekniker som hjälper till att hålla data från datasjön integrerade, tillgängliga, organiserade och säkra.
Kostnadsfritt konto
Prova Azures tjänster för molnbaserad databehandling kostnadsfritt i upp till 30 dagar.
Betala per användning.
Kom igång med betala per användning-prissättning. Inget förhandsåtagande – avbryt när som helst.