Trace Id is missing
Gå til hovedindholdet
Azure

Hvad er datalogi?

Datalogi er et multidisciplinært videnskabeligt studie af data med henblik på at udtrække vigtige data og oplysninger til handlingsrettet indsigt.

Hvad er en datalog?

En datalog leder forskningsprojekter for at udtrække værdifulde oplysninger fra big data og har kompetencer inden for teknologi, matematik, forretning og kommunikation. Organisationer bruger disse oplysninger til at træffe bedre beslutninger, løse komplekse problemer og forbedre deres drift. Ved at afsløre indsigt, der kan handles på, og som er skjult i store datasæt, kan en datalog forbedre sin virksomheds evne til at nå sine mål markant. Det er årsagen til, at der er stor efterspørgsel efter dataloger, og at de ligefrem betragtes som "rockstjerner" i forretningsverdenen.

Definition af datalogi

Datalogi er den videnskabelige undersøgelse af data for at få viden. Dette felt kombinerer flere discipliner for at udtrække viden fra enorme datasæt med henblik på at træffe velovervejede beslutninger og forudsigelser. Dataloger, dataanalytikere, dataarkitekter, datateknikere, statistikere, databaseadministratorer og forretningsanalytikere arbejder alle inden for feltet datalogi.

Behovet for datalogi vokser hurtigt, efterhånden som mængden af data øges eksponentielt, og virksomhederne er mere afhængige af analyser for at skabe omsætning og innovation. I takt med at forretningsinteraktioner bliver mere digitale, oprettes der f.eks. flere data, der giver nye muligheder for at få indsigt i, hvordan du bedre kan tilpasse oplevelser, forbedre service og kundetilfredshed, udvikle nye og forbedrede produkter og øge salget. Derudover har datalogi i og uden for forretningsverdenen potentiale til at hjælpe med at løse nogle af verdens mest vanskelige udfordringer.

Hvad laver en datalog?

En datatekniker indsamler, analyserer og fortolker big data for at afdække mønstre og indsigt, oprette forudsigelser og oprette handlingsrettede planer. Big data-analyseBig Data kan defineres som datasæt, der har større variation, volumen og hastighed end tidligere metoder til dataadministration var udstyret til at håndtere. Dataloger arbejder med mange typer big data, herunder:

  • strukturerede data, som typisk er organiseret i rækker og kolonner og indeholder ord og tal, f.eks. navne, datoer og kreditkortoplysninger. En datalog i forsyningsbranchen kan f.eks. analysere tabeller over strømgenererings- og brugsdata for at reducere omkostningerne og registrere mønstre, der kan medføre, at udstyr mislykkes.
  • Ustrukturerede data, som er uorganiseret og indeholder tekst i dokumentfiler, sociale medier og mobildata, webstedsindhold og videoer. En datalog i detailbranchen kan f.eks. besvare et spørgsmål om forbedring af kundeoplevelsen ved at analysere ustrukturerede callcenternoter, mails, undersøgelser og indlæg på sociale medier.

Derudover kan datasættets egenskaber beskrives som kvantitative, strukturerede numeriske data eller kvalitative eller kategoriske data, som ikke er repræsenteret via numeriske værdier og kan grupperes på baggrund af kategorier. Det er vigtigt for dataloger at kende den type data, de arbejder med, da det direkte påvirker den type analyse, de udfører, og de typer grafer, de kan bruge til at visualisere dataene.

For at få viden fra alle disse datatyper bruger dataloger deres færdigheder i:

  • Computerprogrammering. Dataloger skriver forespørgsler ved hjælp af sprog som Julia, R eller Python for at trække data fra deres virksomheds database. Python er det foretrukne sprog for mange dataloger, fordi det er nemt at lære og bruge, selv for personer uden kodningsoplevelse, og tilbyder færdigbyggede datalogimoduler til dataanalyse.
  • Matematik, statistik og sandsynlighed. Dataloger trækker på disse færdigheder for at analysere data, teste hypoteser og bygge modeller til maskinel indlæring – filer, som dataloger træner for at genkende bestemte typer mønstre. Dataloger bruger trænede modeller til maskinel indlæring til at finde sammenhænge i data, foretage forudsigelser om data og finde løsninger på problemer. I stedet for at bygge og træne modeller fra bunden kan dataloger også drage fordel af automatiseret maskinel indlæring til at få adgang til produktionsklare modeller til maskinel indlæring.
  • Domæneviden. For at oversætte data til relevant og meningsfuld indsigt, der skaber forretningsresultater, har dataloger også brug for domæneviden – en forståelse af den branche og virksomhed, hvor de arbejder. Her er nogle eksempler på, hvordan dataloger kan anvende deres viden til at løse branchespecifikke problemer.

Typer af datalogiprojekter

Typer af datalogiprojekter
Branche Typer af datalogiprojekter
Virksomhed Ny produktudvikling og produktforbedringer
Forsyningskæde og lagerstyring
Forbedringer af kundeservice
Produktanbefalinger til e-handelskunder
Underholdning Forståelse af mønstre for brug af medieindhold
Indholdsudvikling baseret på målmarkedsdata
Måling af indholdsydeevne
Tilpassede anbefalinger baseret på brugerindstillinger
Økonomi og bankvæsen Forebyggelse af svindel og andre sikkerhedsbrud
Risikostyring af investeringsporteføljer
Virtuelle assistenter til at hjælpe kunder med spørgsmål
Offentlige myndigheder Politikbeslutninger
Overvågning af konstituenttilfredshed
Registrering af svindel, f.eks. krav om sociale handicap
Sundheds­sektoren Evidensbaseret medicinbehandling og omkostningseffektivitet af nye stoffer
Sporing af sygdomsudbrud i realtid
Bærbare sporingsenheder til forbedring af patientpleje
Telekommunikation Tjenesteforbedringer baseret på brugerpræferencer og placeringer
Minimering af mistede opkald og andre tjenesteproblemer
Forsyningsnetværk Smart måleranalyse til forbedring af forbrug og kundetilfredshed
Forbedret administration af aktiver og arbejdsstyrke

Der er en anden færdighed, der er afgørende for spørgsmålet "Hvad laver en datalog?" Effektiv kommunikation af resultaterne af deres analyser til administratorer, ledere og andre interessenter er en af de vigtigste dele af jobbet. Dataloger skal gøre deres resultater nemme at forstå for en ikke-teknisk målgruppe, så de kan bruge indsigten til at træffe velovervejede beslutninger. Derfor skal dataloger have færdigheder inden for:

  • Kommunikation, offentlige taler og datavisualisering. Gode dataloger har stærke verbale kommunikationsfærdigheder, herunder historiefortælling og offentlig tale. Inden for datalogi er et billede virkelig mere værd end tusind ord. Præsentation af datalogiresultater ved hjælp af grafer og diagrammer gør det muligt for målgruppen hurtigt at forstå dataene på så lidt som fem sekunder eller mindre. Derfor tager succesrige dataloger deres datavisualiseringer lige så alvorligt som deres analyser.

Datalogiprocesser

Dataloger følger en lignende proces for at fuldføre deres projekter:

1. Definer virksomhedsproblemet

Datalogen arbejder sammen med interessenter for tydeligt at definere det problem, de vil løse, eller stille spørgsmål, de skal besvare, sammen med projektets mål og løsningskrav.

2. Definer analysemetoden
Baseret på forretningsproblemet beslutter datalogen, hvilken analysetilgang der skal følges:

  • Beskrivende for at få flere oplysninger om den aktuelle status.
  • Diagnosticering for at forstå, hvad der sker og hvorfor.
  • Forudsigende for at forudsige, hvad der sker.
  • Præskriptiv for at forstå, hvordan du løser problemet.

3. Hent dataene

Datalogen identificerer og henter de data, der er nødvendige for at opnå det ønskede resultat. Dette kan omfatte forespørgsler om databaser, udtrækning af oplysninger fra websteder (webskrotning) eller hentning af data fra filer. Dataene kan være tilgængelige internt, eller teamet skal muligvis købe dataene. I nogle tilfælde skal organisationer muligvis indsamle nye data for at kunne køre et projekt.

4. Rengør dataene, også kaldet scrubbing

Dette trin er typisk det mest tidskrævende. Hvis du vil oprette datasættet til modellering, konverterer datalogen alle dataene til det samme format, organiserer dataene, fjerner det, der ikke er nødvendigt, og erstatter eventuelle manglende data.

5. Udforsk dataene

Når dataene er renset, udforsker en datalog dataene og anvender statistiske analyseteknikker til at afsløre relationer mellem datafunktioner og de statistiske relationer mellem dem og de værdier, de forudsiger (kendt som en mærkat). Den forudsagte mærkat kan være en kvantitativ værdi, f.eks. den økonomiske værdi af noget i fremtiden eller varigheden af en flyforsinkelse i minutter.

Udforskning og forberedelse involverer typisk en stor del interaktiv dataanalyse og visualisering – der normalt bruger sprog som Python og R i interaktive værktøjer og miljøer, der er specifikt designet til denne opgave. De scripts, der bruges til at udforske dataene, hostes typisk i specialiserede miljøer, f.eks. Jupyter Notebooks. Disse værktøjer gør det muligt for dataloger at udforske dataene programmeringsmæssigt, mens de dokumenterer og deler den indsigt, de finder.

6. Modellér dataene

Datalogen bygger og træner præskriptive eller beskrivende modeller og tester og evaluerer derefter modellen for at sikre, at den besvarer spørgsmålet eller løser forretningsproblemet. Den nemmeste er, at en model er et stykke kode, der kræver input og producerer output. Oprettelse af en model til maskinel indlæring omfatter valg af en algoritme, levering af data og justering af hyperparametre. Hyperparametre er justerbare parametre, der giver dataloger mulighed for at styre modeltræningsprocessen. Med neurale netværk bestemmer datalogen f.eks. antallet af skjulte lag og antallet af noder i hvert lag. Tilpasning af en model for hyperparametreJustering af hyperparametre, også kaldet optimering af hyperparametre, er processen med at finde konfigurationen af hyperparametre, der resulterer i den bedste ydeevne.

Et almindeligt spørgsmål er "Hvilken algoritme til maskinel indlæring skal jeg bruge?" En algoritme til maskinel indlæring omdanner et datasæt til en model. Den algoritme, som datalogen vælger, afhænger primært af to forskellige aspekter af datavidenskabsscenariet:

  • Hvad er det virksomhedsspørgsmål, som datalogen vil besvare ved at lære af tidligere data?
  • Hvilke krav er der til datalogiscenariet, herunder nøjagtighed, oplæringstid, linearitet, antal parametre og antallet af funktioner?

Som en hjælp til at besvare disse spørgsmål tilbyder Azure Machine Learning en omfattende portefølje af algoritmer, f.eks. beslutningsområde i flere klasser, anbefalingssystemer, neural netværksregression, neuralt netværk i flere klasser og K-Means-clustering. Hver algoritme er designet til at håndtere hver sin type problem med maskinel indlæring. Derudover hjælper oversigtsarket til Azure Machine Learning-algoritmen dataloger med at vælge den rette algoritme til at besvare virksomhedsspørgsmål.

7. Udrul modellen

Datalogen leverer den endelige model med dokumentation og udruller det nye datasæt i produktion efter test, så det kan spille en aktiv rolle i en virksomhed. Forudsigelser fra en udrullet model kan bruges til virksomhedsbeslutninger.

8. Visualiser og kommuniker resultaterne

Visualiseringsværktøjer som Microsoft Power BI, Tableau, Apache Superset og Metabase gør det nemt for datalogen at udforske dataene og generere flotte visualiseringer, der viser resultaterne på en måde, der gør det nemt for ikke-tekniske målgrupper at forstå dem.

Dataloger kan også bruge webbaserede notesbøger til datalogi, f.eks. Zeppelin Notebooks, i hele processen for dataindtagelse, registrering, analyse, visualisering og samarbejde.

Metoder inden for datalogi

Dataloger bruger statistiske metoder som hypotesetest, faktoranalyse, regressionsanalyse og klynger til at afdække statistisk solid indsigt.

Dokumentation inden for datalogi

Selvom dokumentationen til datalogi varierer efter projekt og branche, indeholder den generelt dokumentation, der viser, hvor dataene kommer fra, og hvordan de blev ændret. Dette hjælper andre medlemmer af datateamet med effektivt at bruge dataene fremadrettet. Dokumentationen hjælper f.eks. virksomhedsanalytikere med at bruge visualiseringsværktøjer til at fortolke datasættet.

Typer af dokumentation inden for datalogi inkluderer:

  • Project-planer at definere projektets forretningsmål, evalueringsdata, ressourcer, tidslinje og budget.
  • Brugerhistorier om datalogi til at generere ideer til datalogiprojekter. Datalogen skriver historien fra interessenternes synspunkt og beskriver, hvad interessenterne gerne vil opnå, og årsagen til, at interessenterne anmoder om projektet.
  • Dokumentation til datalogimodel til at dokumentere datasættet, eksperimentets design og algoritmerne.
  • dokumentation til understøttende systemer herunder brugervejledninger, dokumentation til infrastruktur til systemvedligeholdelse og kodedokumentation.

Sådan bliver du datalog

Der er flere veje til at blive datalog. Kravene omfatter normalt en uddannelse inden for informationsteknologi eller computervidenskab. Men nogle it-medarbejdere lærer datalogi ved at tage fordybningskurser og onlinekurser, og andre optjener en mastergrad i datalogi eller certificering.

Du kan få mere at vide om, hvordan du bliver datalogi, ved at benytte disse Microsoft-undervisningsressourcer, der er designet til at hjælpe dig:

  • Kom hurtigt i gang. Læs den gratis Packt-e-bog Principles of Data Science, A beginner's guide to statistical techniques and theory. Du får mere at vide om de grundlæggende funktioner i statistiske analyser og maskinel indlæring, nøgleudtryk og datalogiprocesser.
  • Få færdigheder inden for maskinel indlæring med Azure, Microsofts cloudplatform. Udforsk Azure Machine Learning til datalogiressourcer, herunder gratis træningsvideoer, eksempler på løsningsarkitekturer og kundehistorier.
  • Opnå ekspertise inden for maskinel indlæring på Azure gratis på blot 4 uger. Brug en time om dagen på at få mere at vide om, hvordan du skaber innovative løsninger på komplekse problemer. Du lærer alt om det grundlæggende i at skalere dine projekter til maskinel indlæring ved hjælp af de nyeste værktøjer og strukturer. Forløbet med maskinel indlæring: Zero to hero, som du kan tage i dit eget tempo, gør dig også klar til Azure Data Scientist Associate-certifikatet.
  • Få omfattende træning. Tag Microsofts datalog-læringsforløb, og vælg mellem en række kurser, som ledes af en instruktør og kan tages i dit eget tempo. Få mere at vide om, hvordan du opretter modeller til maskinel indlæring, bruger visuelle værktøjer, kører arbejdsbelastninger for datalogi i cloudmiljøet og bygger programmer, der understøtter behandling af naturligt sprog.

Datalog-certificeringer

Certificeringer er en god måde at demonstrere dine færdigheder inden for datalogi og kickstarte din karriere på. Microsoft-certificerede medarbejdere er meget efterspurgte, og der er jobs tilgængelige for Azure-dataloger lige nu. Udforsk de datalog-certificeringer, der oftest søges efter af medarbejderne:

  • Microsoft-certificeret: Azure Data Scientist Associate. Anvend din viden om datalogi og maskinel indlæring til at implementere og køre arbejdsbelastninger med maskinel indlæring på Azure ved hjælp af Azure Machine Learning Service.
  • Microsoft-certificeret: Customer Data Platform Specialty. Implementer løsninger, der giver indsigt i kundeprofiler, og spor engagementsaktiviteter for at hjælpe med at forbedre kundeoplevelsen og øge kundefastholdelsen.

Forskelle mellem dataanalytikere og dataloger

Ligesom dataloger arbejder dataanalytikere med store datasæt for at afdække tendenser i data. Dataloger er dog typisk flere tekniske teammedlemmer med mere ekspertise og ansvar, f.eks. at starte og lede datalogiprojekter, bygge og oplære modeller til maskinel indlæring og præsentere deres resultater for ledere og på konferencer. Nogle dataloger udfører alle disse opgaver, og andre fokuserer på bestemte, f.eks. oplæringsalgoritmer eller oprettelse af modeller. Mange dataloger begyndte deres karriere som dataanalytikere, og dataanalytikere kan forfremmes til at få datalogstillinger inden for få år.

Datalog vs. dataanalytiker

Typer af datalogiprojekter
Dataanalytiker Datalog
Rolle

Statistisk dataanalyse

Udvikl løsninger til komplekse forretningsbehov ved hjælp af big data

Typiske værktøjer

Microsoft Excel, SQL, Tableau, Power BI

SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks

Analyse af datatyper

Strukturerede data

Strukturerede og ustrukturerede data

Opgaver og pligter
  • Arbejd med interessenter for at definere de projekter, der er tildelt af ledelsen.
  • Brug SQL til at forespørge på datakilder og indsamle det rette sæt data.
  • Identificer, rens og analysér data.
  • Fortolk, visualiser og præsenter deres resultater for interessenter via oversigtsrapporter.
  • Start projekter på egen hånd baseret på deres domæneviden.
  • Brug mere avancerede teknikker til statistik, datamining, analyse og modellering, herunder maskinel indlæring.
  • Oversæt resultaterne til anbefalinger, der kan skabe virksomhedsresultater.
  • Visualiser effektivt deres resultater, og præsenter dem for interessenter.

Ofte stillede spørgsmål om datalogi

  • En datalog er ansvarlig for minering af big data for at udtrække værdifulde oplysninger. Organisationer bruger disse oplysninger til at forbedre, hvordan de træffer beslutninger, løser problemer og optimerer driften.

    Få mere at vide om datalogens rolle

  • Datalogi er studiet af data for at få viden. Det kombinerer en række videnskabelige discipliner for at udtrække viden fra enorme datasæt for at hjælpe med at informere om beslutninger og forudsigelser.

    Få en introduktion til datalogi

  • Dataloger leder forskningsprojekter for at udtrække værdifulde oplysninger og indsigt, der kan handles på, fra big data. Dette omfatter at definere det problem, der skal løses, skrive forespørgsler for at hente de rigtige data fra databaser, rense og sortere dataene, bygge og træne modeller til maskinel indlæring og bruge datavisualiseringsteknikker til effektivt at kommunikere resultaterne til interessenter.

    Find ud af, hvordan dataloger udtrækker viden fra data

  • Selvom dokumentationen for datalogi varierer efter projekt og branche, omfatter den generelt projektplaner, brugerhistorier, modeldokumentation og understøttende systemdokumentation, f.eks. brugervejledninger.

    Få mere at vide om dokumentation til datalogi

  • Nogle it-medarbejdere lærer datalogi ved at opnå en kandidatgrad eller en certificering i datalogi eller ved at tage fordybningskurser og onlinekurser. Certificeringer er en god måde at demonstrere dine færdigheder inden for datalogi og kickstarte din karriere på. Microsoft-certificerede medarbejdere er meget efterspurgte, og der er jobs tilgængelige for Azure-dataloger lige nu.

    Udforsk træningsressourcer og certificeringer inden for datalogi

  • Både dataanalytikere og dataloger arbejder med store datasæt for at afdække tendenser i data. Dataloger har dog normalt mere teknisk ekspertise og ansvar med hensyn til at starte deres forskningsprojekter. En dataanalytiker kan f.eks. blive bedt om at udføre statistisk dataanalyse, mens en datalog kan blive bedt om at udvikle løsninger til komplekse forretningsbehov ved at minere big data.

    Se en sammenligning af ansvarsområder hos dataloger og dataanalytikere

  • Datalogiprojekter varierer efter branche- og organisationsbehov. I en virksomhed kan en datalog f.eks. lede et forskningsprojekt om, hvordan kundeserviceoplevelser kan forbedres. De påkrævede data omfatter ikke kun strukturerede data som f.eks. websteds- og transaktionsmålinger, men også ustrukturerede data som brugeranmeldelser og noter fra kundeserviceteams. Den detaljerede analyse af alle disse forskellige datakilder giver indsigt, der kan hjælpe med at informere om anbefalede ændringer af aktuelle procedurer.

  • I virksomheder er det mest almindelige mål med datalogi at forbedre den måde, organisationer fungerer på. Den indsigt, der opnås ved at analysere et væld af organisationsdata sammen, kan hjælpe med at løse eksisterende udfordringer eller generere idéer til nye måder at drive forretning på.

  • Ja, selvom dataloger muligvis ikke har brug for de samme færdigheder i forhold til kodning som programmører. Dataloger kan bruge programmeringssprog som Julia, R eller Python til at skrive forespørgsler. Python er også populært, fordi det er relativt nemt at lære og bruge.

  • Kravene til datalogiroller kan variere, men de omfatter typisk mindst én af følgende:

    • En uddannelse inden for informationsteknologi eller computervidenskab.
    • Gennemførelse af et fordybningskursus eller onlinekursus om datalogi.
    • En kandidatgrad eller certificering i datalogi.

    Microsoft tilbyder en række træningsressourcer og læringsforløb, der kan få dig i gang med at blive datalog.

Kom i gang med en gratis Azure-konto

Få populære Azure-tjenester gratis i 12 måneder, mere end 55 tjenester, der altid er gratis, og kredit til en værdi af 200 USD, som du kan bruge i løbet af de første 30 dage.

Tag kontakt til en Azure AI-salgsspecialist

Få råd om, hvordan du kommer i gang med Azure AI. Stil spørgsmål, få mere at vide om prisfastsættelse og de bedste praksisser, og få hjælp til at designe en løsning, der opfylder dine behov.