Gå til hovedindhold

Hvad er datavidenskab?

Datavidenskab er en multidisciplinær videnskabelig undersøgelse af data med det formål at udtrække vigtige data og oplysninger til handlingsrettet indsigt.

Hvad er en datalog?

En datalog leder forskningsprojekter for at udtrække værdifuld information fra big data og er dygtig inden for teknologi, matematik, forretning og kommunikation. Organisationer bruger disse oplysninger til at træffe bedre beslutninger, løse komplekse problemer og forbedre deres drift. Ved at afsløre handlingsorienteret indsigt, der er skjult i store datasæt, kan en datalog markant forbedre sin virksomheds evne til at nå sine mål. Det er grunden til, at dataloger er meget efterspurgte og endda betragtes som "rockstjerner" i forretningsverdenen.

Datavidenskab er defineret

Datavidenskab er den videnskabelige undersøgelse af data for at opnå viden. Dette felt kombinerer flere discipliner for at udtrække viden fra massive datasæt med det formål at træffe informerede beslutninger og forudsigelser. Dataloger, dataanalytikere, dataarkitekter, dataingeniører, statistikere, databaseadministratorer og forretningsanalytikere arbejder alle inden for datavidenskab.

Behovet for datavidenskab vokser hurtigt, efterhånden som mængden af data stiger eksponentielt, og virksomheder er mere afhængige af analyser for at drive indtjening og innovation. For eksempel, efterhånden som forretningsinteraktioner bliver mere digitale, skabes der flere data, hvilket giver nye muligheder for at få indsigt i, hvordan man bedre kan personalisere oplevelser, forbedre service og kundetilfredshed, udvikle nye og forbedrede produkter og øge salget. Derudover har datavidenskab, i erhvervslivet og udenfor, potentialet til at hjælpe med at løse nogle af verdens sværeste udfordringer.

Hvad laver en datalog?

En datalog indsamler, analyserer og fortolker big data for at afdække mønstre og indsigt, lave forudsigelser og skabe handlingsplaner. Big data kan defineres som datasæt, der har større variation, volumen og hastighed, end tidligere metoder til datastyring var udstyret til at håndtere. Dataloger arbejder med mange typer big data, herunder:

  • Strukturerede data, som typisk er organiseret i rækker og kolonner og omfatter ord og tal såsom navne, datoer og kreditkortoplysninger. For eksempel kan en datalog i forsyningsindustrien analysere tabeller med data over strømproduktion og -forbrug for at hjælpe med at reducere omkostninger og opdage mønstre, der kan få udstyr til at svigte.
  • Ustrukturerede data, som er uorganiseret og inkluderer tekst i dokumentfiler, sociale medier og mobildata, webstedsindhold og videoer. For eksempel kan en datalog i detailbranchen svare på et spørgsmål om at forbedre kundeoplevelsen ved at analysere ustrukturerede callcenter-noter, mails, undersøgelser og opslag på sociale medier.

Derudover kan datasættets karakteristika beskrives som kvantitativt, strukturerede numeriske data, eller kvalitative eller kategoriske data, som ikke er repræsenteret gennem numeriske værdier og kan grupperes baseret på kategorier. Det er vigtigt for dataloger at forstå, hvilken type data de arbejder med, da det direkte påvirker typen af analyser, de udfører, og de typer grafer, de kan bruge til at visualisere dataene.

For at få viden fra alle disse datatyper bruger dataloger deres færdigheder i:

  • Computerprogrammering. Dataloger skriver forespørgsler ved hjælp af sprog som Julia, R eller Python til at trække data fra deres virksomheds database. Python er det foretrukne sprog for mange dataloger, fordi det er nemt at lære og bruge, selv for folk uden kodningserfaring, og tilbyder forudbyggede datavidenskabelige modeller til dataanalyse.
  • Matematik, statistik og sandsynlighed. Dataloger trækker på disse færdigheder til at analysere data, teste hypoteser og bygge modeller til maskinel indlæring – filer, som dataloger træner til at genkende bestemte typer mønstre. Dataforskere bruger trænede modeller til maskinel indlæring til at opdage sammenhængen i data, lave forudsigelser om data og finde løsninger på problemer. I stedet for at bygge og træne modeller fra bunden, kan dataforskere også drage fordel af automatiseret maskinel indlæring for at få adgang til produktionsklare modeller til maskinel indlæring.
  • Domæneviden. For at omsætte data til relevant og meningsfuld indsigt, der skaber forretningsresultater, har dataloger også brug for domæneviden – en forståelse af industrien og virksomheden, hvor de arbejder. Her er nogle eksempler på, hvordan dataloger ville anvende deres domæneviden til at løse branchespecifikke problemer.

Typer af datavidenskabelige projekter

Branche Typer af datavidenskabelige projekter
Erhverv Ny produktudvikling og produktforbedringer
Forsyningskæde og lagerstyring
Forbedringer af kundeservice
Produktanbefalinger til e-handelskunder
Underholdning Forståelse af brugsmønstre for medieindhold
Indholdsudvikling baseret på data om målmarkedet
Måling af indholdspræstation
Tilpassede anbefalinger baseret på brugerpræferencer
Økonomi og bankvæsen Forebyggelse af svindel og andre sikkerhedsbrud
Risikostyring af investeringsporteføljer
Virtuelle assistenter til at hjælpe kunder med spørgsmål
Offentlige myndigheder Politiske beslutninger
Overvågning af bestanddelenes tilfredshed
Afsløring af svindel, såsom krav om socialt handicap
Sundhedssektor Vidensbaseret medicinbehandling og omkostningseffektivitet af nye lægemidler
Sporing af sygdomsudbrud i realtid
Trackere, der kan tages på, til at forbedre patientplejen
Telekommunikation Tjenesteforbedringer baseret på brugerpræferencer og -placeringer
Minimering af afbrudte opkald og andre serviceproblemer
Hjælpeprogrammer Smart måleranalyse for at forbedre forbrug og kundetilfredshed
Forbedret styring af aktiver og arbejdsstyrke

Der er en anden færdighed, der er afgørende for spørgsmålet "Hvad laver en dataforsker?" Effektiv kommunikation af resultaterne af deres analyser til administratorer, ledere og andre interessenter er en af de vigtigste dele af jobbet. Dataloger skal gøre deres resultater nemme at forstå for et ikke-teknisk publikum, så de kan bruge indsigten til at træffe informerede beslutninger. Derfor skal dataloger være dygtige til:

  • Kommunikation, offentlige taler og datavisualisering. Gode dataloger har stærke verbale kommunikationsevner, herunder historiefortælling og offentlig tale. Inden for datavidenskab siger et billede virkelig mere end tusinde ord. Præsentation af datavidenskabelige resultater ved hjælp af grafer og diagrammer gør det muligt for publikum hurtigt at forstå dataene på så lidt som fem sekunder eller mindre. Af den grund tager succesrige dataloger deres datavisualiseringer lige så seriøst som deres analyser.

Datavidenskabelige processer

Dataloger følger en lignende proces for at fuldføre deres projekter:

  1. Definer virksomhedsproblemet

    Datalogen arbejder sammen med interessenter for klart at definere det problem, de ønsker at løse eller det spørgsmål, de skal besvare, sammen med projektets mål og løsningskrav.

  2. Definer den analytiske tilgang

    Baseret på forretningsproblemet beslutter dataspecialisten, hvilken analysetilgang der skal følges:

    • Beskrivende for at få flere oplysninger om den aktuelle status.
    • Diagnosticering for at forstå, hvad der sker og hvorfor.
    • Forudsigende for at forudsige, hvad der skal ske.
    • Beskrivende for at forstå, hvordan du løser problemet.
  3. Hent dataene

    Datalogen identificerer og indhenter de nødvendige data for at opnå det ønskede resultat. Dette kunne indebære forespørgsler i databaser, udtrækning af information fra websteder (web scraping) eller indhentning af data fra filer. Dataene kan være internt tilgængelige, eller teamet skal muligvis købe dataene. I nogle tilfælde kan organisationer være nødt til at indsamle nye data for at kunne køre et projekt med succes.

  4. Rens dataene, også kaldet scrubbing

    Typisk er dette trin det mest tidskrævende. For at oprette datasættet til modellering konverterer dataforskeren alle data til det samme format, organiserer dataene, fjerner det, der ikke er nødvendigt, og erstatter eventuelle manglende data.

  5. Udforsk dataene

    Når dataene er renset, udforsker en datatekniker dataene og anvender statistiske analyseteknikker til at afsløre relationer mellem datafunktioner og de statistiske relationer mellem dem og de værdier, de forudsiger (kendt som en mærkat). Den forudsagte mærkat kan være en kvantitativ værdi, f.eks. den økonomiske værdi af noget i fremtiden eller varigheden af en flyforsinkelse i minutter.

    Udforskning og forberedelse involverer typisk en stor del interaktiv dataanalyse og visualisering – der normalt bruger sprog som Python og R i interaktive værktøjer og miljøer, der er specifikt designet til denne opgave. De scripts, der bruges til at udforske dataene, hostes typisk i specialiserede miljøer, f.eks. Jupyter Notebooks. Disse værktøjer gør det muligt for dataeksperter at udforske dataene programmeringsmæssigt, mens de dokumenterer og deler den indsigt, de finder.

  6. Modellér dataene

    Datalogen bygger og træner foreskrivende eller beskrivende modeller samt tester og evaluerer derefter modellen for at sikre, at den besvarer spørgsmålet eller løser erhvervsproblemet. I sin simpleste form er en model et stykke kode, der tager et input og producerer output. Oprettelse af en model til maskinel indlæring indebærer valg af en algoritme, tilførsel af data til den og indstilling af hyperparametre. Hyperparametre er justerbare parametre, der lader dataloger styre processen for maskinel indlæring. Med neurale netværk bestemmer datalogen f.eks. antallet af skjulte lag og antallet af noder i hvert lag.Justering af hyperparameter, også kaldet optimering af hyperparameter, er processen med at finde den konfiguration af hyperparametre, der resulterer i den bedste ydeevne.

    Et almindeligt spørgsmål er "Hvilken algoritme for maskinel indlæring skal jeg bruge?" En algoritme for maskinel indlæring gør et datasæt til en model. Algoritmen, som datalogen vælger, afhænger primært af to forskellige aspekter af datavidenskabelige scenarier:

    • Hvad er det firmaspørgsmål, datalogen ønsker at besvare ved at lære af tidligere data?
    • Hvad er kravene til det i et datavidenskabs scenarie, herunder nøjagtighed, træningstid, linearitet, antal parametre og antal funktioner?

    For at hjælpe med at besvare disse spørgsmål tilbyder Azure Machine Learning en omfattende portefølje af algoritmer, som f.eks. multiklasse beslutningsområder, anbefalingssystemer, neural netværksregression, multiklasse neuralt netværk og K-gennemsnitsklynge. Hver algoritme er designet til at løse en type problem med maskinel indlæring. Derudover hjælper Azure Machine Learning Algorithm-oversigtsarket dataloger med at vælge den rigtige algoritme til at besvare firmaspørgsmålet.

  7. Udrul modellen

    Datalogen leverer den endelige model med dokumentation og udruller det nye datasæt i produktion efter test, så det kan spille en aktiv rolle i en virksomhed. Forudsigelser fra en udrullet model kan bruges til forretningsbeslutninger.

  8. Visualiser og kommuniker resultaterne

    Visualiseringsværktøjer som Microsoft Power BI, Tableau, Apache Superset og Metabase gør det nemt for datalogen at udforske dataene og generere smukke visualiseringer, der viser resultaterne på en måde, der gør det nemt for ikke-tekniske målgrupper at forstå.

Dataloger kan også bruge webbaserede datavidenskabelige notesbøger, såsom Zeppelin Notebooks, gennem hele processen til dataindtagelse, opdagelse, analyse, visualisering og samarbejde.

Metoder til datavidenskab

Dataloger bruger statistiske metoder såsom hypotesetestning, faktoranalyse, regressionsanalyse og clustering til at afdække statistisk forsvarlig indsigt.

Dokumentation for datavidenskab

Selvom datavidenskabelig dokumentation varierer efter projekt og branche, inkluderer den generelt dokumentation, der viser, hvor dataene kommer fra, og hvordan de blev ændret. Dette hjælper andre medlemmer af datateamet til effektivt at bruge dataene fremover. For eksempel hjælper dokumentation forretningsanalytikere med at bruge visualiseringsværktøjer til at fortolke datasættet.

Typer af datavidenskabelig dokumentation omfatter:

  • Projektplaner til at definere projektets forretningsmål, målepunkter for evaluering, ressourcer, tidslinje og budget.
  • Datavidenskab-brugerhistorier til at generere ideer til datavidenskabs-projekter. Datalogen skriver historien fra interessentens synspunkt og beskriver, hvad interessenten gerne vil opnå og årsagen til, at interessenten anmoder om projektet.
  • Dokumentation af datavidenskabelige modeller til at dokumentere datasættet, eksperimentets design og algoritmerne.
  • Understøtter systemdokumentation, inklusiv brugervejledninger, dokumentation for infrastruktur til systemvedligeholdelse og kodedokumentation.

Sådan bliver du en datalog

Der er flere veje til at blive datalog. Krav omfatter normalt en grad i informationsteknologi eller datalogi. Men nogle it-professionelle lærer datavidenskab ved at deltage i bootcamps og tage onlinekurser, og andre opnår en kandidatgrad i datavidenskab eller certificering.

Hvis du vil vide mere om, hvordan du bliver datalog, skal du drage fordel af disse Microsoft-uddannelsesressourcer, der er designet til at hjælpe dig:

  • Kom hurtigt i gang. Læs den gratis Packt e-bog Principper for datavidenskab, En begynderr guide til statistiske teknikker og teori. Du lærer det grundlæggende om statistisk analyse og maskinel indlæring, nøgletermer og datavidenskabelige processer.
  • Opbyg dine færdigheder til maskinel indlæring med Azure, Microsofts cloud-platform. Udforsk Azure-maskinel indlæring for ressourcer til dataloger, herunder gratis træningsvideoer, eksempler på løsningsarkitekturer og kundehistorier.
  • Opnå ekspertise inden for maskinel indlæring på Azure gratis på kun 4 uger. Brug en time om dagen på at lære at skabe innovative løsninger til komplekse problemer. Du lærer det grundlæggende hele vejen til at skalere dine projekter for maskinel indlæring ved hjælp af de nyeste værktøjer og rammer. læringsforløbet Zero to hero machine learning, der foregår i eget tempo, forbereder dig også til Azure Data Scientist Associate-certifikatet.
  • Få omfattende træning. Tag Microsofts læringsforløb Datalog og vælg mellem en række instruktør-ledede kurser og kurser, der foregår i dit eget tempo. Få mere at vide om, hvordan du opretter modeller til maskinel indlæring, bruger visuelle værktøjer, kører datavidenskabelige arbejdsbelastninger i skyen og bygger applikationer, der understøtter naturlig sprogbehandling.

Certifikat som datatekniker

Certificeringer er en fantastisk måde at demonstrere dine datavidenskabelige kvalifikationer og sætte gang i din karriere. Microsoft-certificerede fagfolk er i høj efterspørgsel, og der er ledige job for Azure-dataloger lige nu. Udforsk datalog-certificeringer, der efterspørges mest af arbejdsgivere:

  • Microsoft Certified: Azure Data Scientist Associate. Anvend din viden om datavidenskab og maskinel indlæring til at implementere og køre arbejdsbelastninger med maskinel indlæring på Azure ved hjælp af Azure Machine Learning Service.
  • Microsoft Certified: Customer Data Platform Specialty. Implementer løsninger, der giver indsigt i kundeprofiler og spor engagementsaktiviteter for at hjælpe med at forbedre kundeoplevelser og øge kundefastholdelse.

Forskelle mellem dataanalytikere og dataloger

Ligesom dataloger arbejder dataanalytikere med store datasæt for at afdække tendenser i data. Dataloger er dog typisk mere tekniske teammedlemmer med mere ekspertise og ansvar, såsom at initiere og lede datavidenskabelige projekter, bygge og træne modeller til maskinel indlæring og præsentere deres resultater for ledere og på konferencer. Nogle dataloger udfører alle disse opgaver, og andre fokuserer på specifikke opgaver, såsom at træne algoritmer eller opbygge modeller. Mange dataloger begyndte deres karriere som dataanalytikere, og dataanalytikere kan blive forfremmet til datalog-stillinger inden for få år.

Dataspecialist vs. dataanalytiker

Ikke tilgængelig Dataanalytiker Dataspecialist
Rolle Statistisk dataanalyse Udvikle løsninger til komplekse forretningsbehov ved hjælp af big data
Typiske værktøjer Microsoft Excel, SQL, Tableau, Power BI SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks
Analyse af datatyper Strukturerede data Strukturerede og ustrukturerede data
Opgaver og pligter
  • Arbejd med interessenter for at definere de projekter, der er tildelt af ledelsen.
  • Brug SQL til at forespørge datakilder og indsamle det rigtige sæt data.
  • Identificere, rense og analysere data.
  • Fortolke, visualisere og præsentere deres resultater for interessenter via sammenfattende rapporter.
  • Igangsætte projekter på egen hånd baseret på deres domæneviden.
  • Brug mere avancerede teknikker til statistik, datamining, analyse og modellering, herunder maskinel indlæring.
  • Oversæt resultaterne til anbefalinger, der kan skabe forretningsresultater.
  • Visualiser deres resultater effektivt og præsentere dem for interessenter.

Ofte stillede spørgsmål om datavidenskab

  • En datatekniker er ansvarlig for big datamining for at udtrække værdifulde oplysninger. Organisationer bruger disse oplysninger til at forbedre, hvordan de træffer beslutninger, løser problemer og optimerer operations.

    Få mere at vide om datateknikerrollen

  • Datavidenskab er undersøgelse af data for at få viden. Den kombinerer en række videnskabelige discipliner for at udtrække viden fra enorme datasæt med henblik på at hjælpe med at informere om beslutninger og forudsigelser.

    Få en introduktion til datavidenskab

  • Dataloger leder forskningsprojekter for at udtrække værdifuld information og handlingsegnet indsigt fra big data. Dette inkluderer at definere problemet, der skal løses, skrive forespørgsler for at trække de rigtige data fra databaser, rense og sortere dataene, bygge og træne modeller til maskinel indlæring og bruge teknikker til datavisualisering til effektivt at kommunikere resultaterne til interessenterne.

    Find ud af, hvordan dataloger udvinder viden fra data

  • Selvom datavidenskabelig dokumentation varierer efter projekt og branche, omfatter den generelt projektplaner, brugerhistorier, modeldokumentation og understøttende systemdokumentation såsom brugervejledninger.

    Få mere at vide om datavidenskabelig dokumentation

  • Nogle it-professionelle lærer datavidenskab ved at deltage i bootcamps og tage onlinekurser, og andre opnår en kandidatgrad eller certifikat i datavidenskab. Certifikater er en fantastisk måde at demonstrere dine datavidenskabelige kvalifikationer og sætte gang i din karriere på. Der er stor efterspørgsel efter Microsoft-certificerede fagfolk, og der er ledige job til Azure-dataforskere lige nu.

    Udforsk kursusressourcer og certificeringer i datavidenskab

  • De samme dataanalytikere og dataeksperter arbejder med store datasæt for at afdække tendenser i data. Dataeksperter har dog normalt mere teknisk ekspertise og ansvar, når det drejer sig om at starte deres forskningsprojekter. En dataanalytiker kan f.eks. blive bedt om at udføre statistisk dataanalyse, mens en datatekniker kan blive bedt om at udvikle løsninger til komplekse forretningsbehov i forbindelse med big datamining.

    Se en sammenligning af datatekniker- og dataanalytikeransvar

  • Datavidenskabsprojekter varierer efter branche- og organisationsbehov. I en virksomhed kan en datatekniker f.eks. lede et forundersøgelsesprojekt om, hvordan kundeserviceoplevelser kan forbedres. De påkrævede data omfatter ikke kun strukturerede data som f.eks. websteds- og transaktionsmålepunkter, men også ustrukturerede data som brugeranmeldelser og noter fra kundeserviceteams. Den detaljerede analyse af alle disse forskellige datakilder giver indsigt, der kan hjælpe med at informere om anbefalede ændringer af aktuelle procedurer.
  • I virksomheder er det mest almindelige mål med datavidenskab at forbedre den måde, organisationer fungerer på. Den indsigt, der opnås ved at analysere et væld af organisationsdata sammen, kan hjælpe med at løse eksisterende udfordringer eller generere idéer til nye måder at drive forretning på.
  • Ja, selvom dataeksperter muligvis ikke har brug for de samme færdigheder i forhold til kodning som programmører. Dataeksperter kan bruge programmeringssprog som Julia, R eller Python til at skrive forespørgsler. Python er også populært, fordi det er relativt nemt at lære og bruge.
  • Krav til datavidenskabsroller kan variere, men de omfatter typisk mindst én af følgende:

    • En grad inden for informationsteknologi eller computervidenskab.
    • Gennemførelse af en bootcamp for datavidenskab eller onlinekursus.
    • En kandidatgrad eller certificering i datavidenskab.

    Microsoft tilbyder en række undervisningsressourcer og læringsforløb, så du kan komme i gang med at blive dataspecialist.

Kom i gang med en gratis Azure-konto

Nyd populære Azure-tjenester gratis i 12 måneder, mere end 55 tjenester, der altid er gratis, og $200 kredit til brug i dine første 30 dage.

Få kontakt til en Azure AI-salgsspecialist

Få råd om, hvordan du kommer i gang med Azure AI. Stil spørgsmål, få mere at vide om priser og bedste praksis, og få hjælp til at designe en løsning, der opfylder dine behov.

Kan vi hjælpe dig?