Vad är ett informationslager?
Först ska vi definiera vad ett informationslager är och varför du kanske vill använda det i din organisation.
Ett informationslager är en centraliserad lagringsplats för lagring av strukturerade data (databastabeller, Excel-blad) och halvstrukturerade data (XML-filer, webbsidor) för rapportering och analys. Data flödar in från en mängd olika källor, till exempel kassasystem, affärsprogram och relationsdatabaser, och de rensas vanligtvis och standardiseras innan de når lagret. Eftersom det går att lagra stora mängder information i ett informationslager ger det användare enkel åtkomst till en mängd historiska data, som kan användas för datautvinning, datavisualisering och andra former av Business Intelligence-rapportering.
Fördelar med informationslager
Tillförlitliga data, särskilt när de sammanställs över tid, hjälper användarna att fatta smartare och mer välgrundade beslut som påverkar driften av organisationen, och det är informationslager som möjliggör detta. Det finns många fördelar med informationslager, men för företag är det särskilt fördelaktigt att kunna:
-
Konsolidera data från flera källor till en enda sanningskälla
-
Lagra och analysera långsiktiga historiska data som sträcker sig över månader och år
-
Rensa och transformera data så att de är korrekta, konsekventa och standardiserade i struktur och form
-
Minska frågetiderna vid insamling av data och bearbetning av analyser, vilket förbättrar övergripande prestanda i systemen
-
Läsa in data på ett effektivt sätt utan att behöva hantera kostnaderna för distribution eller infrastruktur
-
Skydda data så att de är privata, skyddade och säkra
-
Förbereda data för analys via datautvinning, visualiseringsverktyg och andra former av avancerad analys
Jämförelse mellan ett informationslager och en datasjö
Det är tydligt att informationslager är viktiga för analysåtgärder i alla organisationer. Men vad är skillnaden mellan ett informationslager och andra typer av datalagringsplatser, till exempel en datasjö? Och när är det bättre att välja en viss typ av lagringsplats i stället för en annan?
Både informationslager och datasjöar är lagringsplatser som kan lagra och bearbeta data. Men även om de ser ut att erbjuda samma funktioner har de också olika användningsområden. Det är därför organisationer ofta införlivar båda systemen för att skapa en komplett lösning från slutpunkt till slutpunkt som kan hantera en mängd olika uppgifter.
Ett informationslager är relationellt. Det innebär att strukturen eller schemat för data bestäms av fördefinierade affärs- och produktkrav som är utvalda, anpassade och optimerade för SQL-frågeåtgärder. Därför passar informationslager bäst för lagring av data som har behandlats med ett specifikt syfte i åtanke, till exempel datautvinning för BI-analys, eller för affärsanvändningsfall som redan har identifierats.
Precis som informationslager innehåller datasjöar strukturerade och halvstrukturerade data. Men de kan också ta emot rådata och obearbetade data från en mängd olika icke-relationella källor, till exempel mobilappar, IoT-enheter, sociala medier eller streaming. Det beror på att strukturen eller schemat i en datasjö inte definieras förrän data har lästs in. Eftersom datasjöar är flexibla och skalbara används de ofta för att utföra intelligenta former av dataanalys, till exempel maskininlärning.
Datasjö | Informationslager | |
---|---|---|
Typ | Strukturerade, halvstrukturerade, ostrukturerade | Strukturerade |
Schema | Schema vid läsning | Schema vid skrivning |
Format | Råa, ofiltrerade | Bearbetade, testade |
Källor | Stordata, IoT, sociala medier, strömmande data | Program, företag, transaktionsdata, batchrapportering |
Skalbarhet | Enkelt att skala till en låg kostnad | Svårt och dyrt att skala |
Användare | Dataforskare, datatekniker | Informationslagerpersonal, affärsanalytiker |
Användningsfall | Maskininlärning, förutsägelseanalys, realtidsanalys | Core Reporting, BI |
Informationslagrets arkitektur och design
Nu när du vet varför och när du ska använda ett informationslager ska vi gå in på hur det fungerar genom att titta på informationslagrets design. Ett informationslager är mer än bara en silo som fungerar på egen hand. Det är ett mycket strukturerat och noggrant utformat system som består av flera nivåer som interagerar med dina data, och mellan varandra, på olika sätt. Dessa nivåer omfattar vanligtvis:
Den nedersta nivån
Data matas in från flera källor och rensas och transformeras sedan så att andra program kan använda dem i en process som kallas extrahering, transformering och inläsning (ETL). Det är också på den nedersta nivån som data lagras och optimeras, vilket ger snabbare frågetider och bättre prestanda överlag.
Mellannivån
Här hittar du analysmotorn, även kallad OLAP-servern (Online Analytical Processing). OLAP-servrar kommer åt stora mängder data från informationslagret i hög hastighet, vilket leder till blixtsnabba resultat.
Översta nivån
På den översta nivån visar klientdelsgränssnittet bearbetade data som analytiker behöver kunna komma åt och använda för rapportering och självservice-BI.
Skapa ett informationslager
När ett informationslager utformas och skapas är det viktigt att tänka på organisationens mål, både långsiktiga mål och ad hoc-mål, samt vilken typ av data du har. Hur många datakällor integrerar du? Planerar du att automatisera dina arbetsflöden? Hur kommer du att utforska och analysera dina data? Utbyggnaden kan variera beroende på komplexiteten i dina behov, men ett typiskt databaslager för företag kan bestå av följande komponenter:
- Datakällor som extraherar driftdata från kassasystem, affärsprogram och andra relationsdatabaser
- Ett mellanlagringsområde där data rensas och transformeras för lagret eller den centraliserade lagringsplatsen
- Ett lager eller en centraliserad lagringsplats för lagring av bearbetade driftdata, metadata, sammanfattningsdata och rådata för enkel användaråtkomst
- Tillägg av dataförråd, som tar data från den centraliserade lagringsplatsen och tillhandahåller dem i delmängder till valda grupper av användare
- En sandbox-miljösom dataforskare kan använda för att testa nya former av datautforskning i en skyddad miljö
- En mängd olika informationslagringsverktyg, ramverk och API:er för integrering, lagring, prestanda och analys
Verktyg, programvara och resurser för informationslager
I dagens datacentrerade värld har många stora programvaruföretag ett till synes oändligt utbud av informationslagerprogram, vart och ett med egna specifika användningsområden. Det kan verka överväldigande, men för att skapa en sammanhängande lösning med höga prestanda bör du investera i rätt verktyg och tekniker. Varje organisation har olika behov, men det finns vissa informationslagerprodukter som du bör titta närmare på:
Informationslagring i moln och hybridmoln
En enhetlig, molnbaserad datalagringslösning, till exempel Azure Synapse Analytics, ger organisationer möjlighet att skala, beräkna och lagra snabbare och till en lägre kostnad.
Dataintegreringsverktyg
Med ETL-pipelines kan användare skapa, schemalägga och samordna sina arbetsflöden så att källdata integreras, rensas och standardiseras automatiskt.
Objektlagring
Med en objektlagringslösning kan du lagra stora mängder strukturerade, halvstrukturerade och ostrukturerade data, vilket gör den passar perfekt för mellanlagring av källdata innan de läses in i lagret.
Lagringsverktyg
En distribuerad lagringslösning innehåller stora mängder data i relationstabeller med kolumnbaserad lagring. Detta sänker kostnaderna avsevärt, förbättrar frågeprestanda och ger snabbare insikter.
Prestandaverktyg
Om du vill ha bättre prestanda för dina program kan du implementera Apache Spark, ett ramverk för parallellbearbetning med öppen källkod som stöder minnesintern bearbetning.
Hantering av resurser och arbetsbelastningar
En resurshanterare allokerar beräkningskraft till dina arbetsbelastningar så att du kan läsa in, analysera, hantera och exportera data i enlighet med detta.
Datamodellering
I en datamodellering kombineras flera datakällor till en enda semantisk modell, vilket ger en strukturerad och effektiv vy av dina data.
Business Intelligence-verktyg
Företagsanalysverktyg hjälper till att leverera insikter till användare via instrumentpaneler, rapporter och andra visualiseringsverktyg.
Funktioner för säkerhet och sekretess
Säkerhets- och efterlevnadsfunktioner som datakryptering, användarautentisering och åtkomstövervakning säkerställer att dina data förblir skyddade.
Vad hände med Azure SQL Data Warehouse?
Funktionerna som är associerade med Azure SQL Data Warehouse är nu en funktion i Azure Synapse Analytics som kallas dedikerad SQL-pool. Befintliga Azure SQL Data Warehouse-kunder kan fortsätta att köra sina befintliga Azure SQL Data Warehouse-arbetsbelastningar med funktionen för dedikerad SQL-pool i Azure Synapse Analytics utan att göra några ändringar. Kunder kan också börja hantera sina befintliga informationslagerdata med Azure Synapse Analytics och dra nytta av avancerade analysfunktioner som serverlös datasjöutforskning och integrerade SQL- och Apache Spark™-motorer.
Vanliga frågor och svar
-
Ett informationslager är en centraliserad lagringsplats som innehåller strukturerade data (databastabeller, Excel-blad) och halvstrukturerade data (XML-filer, webbsidor) för rapportering, analys och andra former av Business Intelligence.
-
Det finns många fördelar med att använda ett informationslager. Ett informationslager konsoliderar till exempel flera datakällor till en enda sanningskälla, som organisationer sedan kan använda för att fatta mer välgrundade beslut för verksamheten.
-
I informationslager lagras strukturerade och halvstrukturerade data som kan användas för källdatautvinning, datavisualisering och andra specifika BI-användningsfall. I datasjöar lagras olika typer av rådata, som dataforskare sedan kan använda för olika projekt.
-
Ett informationslager består vanligtvis av flera nivåer: den nedersta nivån där data samlas in och lagras, mellannivån där data analyseras och den översta nivån där data visas så att användare komma åt och undersöka dem.
-
När du utformar och skapar en infrastruktur för informationslager är det viktigt att tänka på vilken typ av data du har och hur du vill transformera dem. Några vanliga element i en typisk utbyggnad är datakällor, ett mellanlagringsområde, själva lagret, dataförråd, sandbox-miljöer och olika integreringsverktyg.
-
Många stora programvaruföretag har nu ett brett utbud av informationslagerprodukter.
-
De här funktionerna är nu en funktion i Azure Synapse Analytics som kallas dedikerad SQL-pool. Befintliga Azure SQL Data Warehouse-kunder kan fortsätta köra sina arbetsbelastningar här utan att göra några ändringar.
Ytterligare resurser
Kostnadsfritt konto
Prova Azure-tjänster inom molnbaserad databehandling kostnadsfritt i upp till 30 dagar.
Betala allteftersom
Kom igång med användningsbaserad prissättning. Det finns inga förhandsåtaganden – avsluta när du vill.