Gå til hovedinnhold

Hva er datavitenskap?

Datavitenskap er et tverrfaglig vitenskapelig studie av data med det formål å trekke ut viktige data og informasjon for handlingsrettet innsikt.

Hva er en dataforsker?

En dataforsker leder forskningsprosjekter for å trekke ut verdifull informasjon fra store data, og er kvalifisert innen teknologi, matematikk, forretninger og kommunikasjon. Organisasjoner bruker denne informasjonen til å ta bedre avgjørelser, løse komplekse problemer og forbedre driften. Ved å avsløre anvendelig innsikt som er skjult i store datasett, kan en dataforsker forbedre sitt firmas evne til å oppnå sine mål betydelig. Det er derfor det er høy etterspørsel etter dataforskere, og at de til og med anses som "rockestjerner" i forretningsverden.

Datavitenskap definert

Datavitenskap er den vitenskapelige studien av data for å få kunnskap. Dette feltet kombinerer flere fagområder for å trekke ut kunnskap fra massive datasett for å ta informerte beslutninger og prognoser. Dataforskere, dataanalytikere, dataarkitekter, dataingeniører, statistikere, databaseadministratorer og forretningsanalytikere arbeider alle i datavitenskapsfeltet.

Behovet for datavitenskap vokser raskt etter hvert som mengden data øker eksponentielt, og etter hvert som selskaper blir mer avhengig av analyser for å drive fram inntekter og innovasjon. For eksempel, etter hvert som forretningssamhandlinger blir mer digitale, skapes det mer data, som gir nye muligheter til å få innsikt i hvordan du tilpasser opplevelser bedre, forbedrer servicen og kundetilfredsheten, utvikler nye og forbedrede produkter og øker salget. I tillegg har datavitenskapen potensial til å løse noen av verdens vanskeligste utfordringer innen forretningsverden og ellers.

Hva gjør en dataforsker?

En dataforsker samler inn, analyserer og tolker stordata for å avdekke mønstre og innsikt, lage prognoser og opprette handlingsplaner. Stordata kan defineres som datasett som har større variasjon, volum og hastighet enn tidligere metoder for databehandling. Dataforskere arbeider med mange typer stordata, inkludert:

  • Strukturerte data, som vanligvis organiseres i rader og kolonner og inneholder ord og tall, for eksempel navn, datoer og kredittkortinformasjon. En dataforsker i verktøybransjen kan for eksempel analysere tabeller for kraftgenerering og bruksdata for å bidra til å redusere kostnader og oppdage mønstre som kan føre til at utstyret svikter.
  • Ustrukturerte data, som er uorganisert og inkluderer tekst i dokumentfiler, sosiale medier og mobildata, nettstedsinnhold og videoer. En dataforsker i detaljhandelen kan for eksempel svare på et spørsmål om å forbedre kundeopplevelsen ved å analysere ustrukturerte telefonsenternotater, e-postmeldinger, undersøkelser og innlegg på sosiale medier.

I tillegg kan egenskapene til datasettet beskrives som kvantitative, strukturerte numeriske data eller kvalitative eller kategoriske data, som ikke representeres gjennom numeriske verdier og kan grupperes basert på kategorier. Det er viktig for dataforskere å vite hvilken type data de arbeider med, da det direkte påvirker typen analyser de utfører, og hvilke typer grafer de kan bruke til å visualisere dataene.

For å få kunnskap fra alle disse datatypene bruker dataforskere sine ferdigheter i:

  • Datamaskinprogrammering. Dataforskere skriver spørringer ved hjelp av språk som Julia, R eller Python for å hente data fra selskapets database. Python er språket mange dataforskere velger fordi det er enkelt å lære og bruke, selv for personer uten kodingserfaring, og tilbyr forhåndsbygde datavitenskapsmoduler for dataanalyse.
  • Matematikk, statistikk og sannsynlighet. Dataforskere bruker disse ferdighetene til å analysere data, teste hypoteser og bygge maskinlæringsmodeller – filer som dataforskere lærer opp for å gjenkjenne visse typer mønstre. Dataforskere bruker opplærte maskinlæringsmodeller til å oppdage relasjonene i data, lage prognoser om data og finne løsninger på problemer. I stedet for å bygge og lære opp modeller fra grunnen av, kan dataforskere også dra nytte av automatisert maskinlæring for å få tilgang til produksjonsklare maskinlæringsmodeller.
  • Domenekunnskap. Hvis dataforskere skal oversette data til relevante og meningsfulle innsikter som fremmer forretningsresultater, trenger de også domenekunnskap – en forståelse av bransjen og firmaet der de arbeider. Her er noen eksempler på hvordan dataforskere vil bruke domenekunnskapene sine til å løse bransjespesifikke problemer.

Typer datavitenskapsprosjekter

Bransje Typer datavitenskapsprosjekter
Bedrift Ny produktutvikling og produktforbedringer
Administrasjon av forsyningskjede og lagerbeholdning
Forbedringer i kundeservice
Produktanbefalinger til e-handelkunder
Underholdning Forståelse av bruksmønstre for medieinnhold
Innholdsutvikling basert på målmarkedsdata
Måling av innholdsytelse
Tilpassede anbefalinger basert på brukerinnstillinger
Økonomi og banktjenester Forebygging av svindel og andre sikkerhetsbrudd
Risikostyring av investeringsporteføljer
Virtuelle assistenter for å hjelpe kunder med spørsmål
Myndigheter Policybeslutninger
Overvåking av medlemstilfredshet
Svindelgjenkjenning, for eksempel krav om sosial funksjonshemming
Helsesektoren Bevisbasert rusmiddelbehandling og kostnadseffektivitet for nye rusmidler
Sanntidssporing av sykdomsutbrudd
Bærbare sporere for å forbedre pasientbehandling
Telekommunikasjon Tjenesteforbedringer basert på brukerpreferanser og plasseringer
Minimering av tapte anrop og andre tjenesteproblemer
Verktøy Smartmåleranalyse for å forbedre bruk av verktøy og kundetilfredshet
Forbedret administrasjon av aktiva og arbeidsstyrke

Det finnes en annen ferdighet som er avgjørende for spørsmålet "Hva gjør en dataforsker?" Effektiv kommunikasjon av resultatene fra analysene til avdelingsledere, overordnede ledere og andre interessenter er en av de viktigste delene av jobben. Dataforskere må gjøre resultatene enkle å forstå for en ikke-teknisk målgruppe, slik at de kan bruke innsiktene til å ta informerte beslutninger. Derfor må dataforskere være kvalifisert innen:

  • Kommunikasjon, offentlige taler og datavisualisering. Gode dataforskere har sterke verbale kommunikasjonsferdigheter, deriblan med historiefortelling og offentlige taler. Innen datavitenskap er et bilde virkelig verdt tusen ord. Ved å presentere datavitenskapsfunn ved hjelp av grafer og diagrammer kan publikum forstå data raskt, på så lite som fem sekunder eller mindre. Av den grunn tar vellykkede dataforskere datavisualiseringene sine like alvorlig som analysene.

Prosess for datavitenskap

Dataforskere følger en lignende prosess for å fullføre prosjektene sine:

  1. Definer forretningsproblemet

    Dataforskeren samarbeider med interessenter for å tydelig definere problemet de ønsker å løse, eller spørsmålet de må svare på, sammen med prosjektets mål og løsningskrav.

  2. Definer den analytiske tilnærmingen

    Basert på forretningsproblemet bestemmer dataforskeren hvilken analytisk tilnærming som skal følges:

    • Beskrivende for mer informasjon om gjeldende status.
    • Diagnose for å forstå hva som skjer og hvorfor.
    • Prediktiv for å forutsi hva som vil skje.
    • Beskrivende for å forstå hvordan du løser problemet.
  3. Hent dataene

    Dataforskeren identifiserer og henter dataene som kreves for å oppnå ønsket resultat. Dette kan omfatte spørring av databaser, uttrekking av informasjon fra nettsteder (nettskraping) eller henting av data fra filer. Dataene kan være internt tilgjengelige, eller teamet må kanskje kjøpe dataene. I noen tilfeller må organisasjoner kanskje samle inn nye data for å kunne kjøre et prosjekt.

  4. Rens dataene, også kalt skrubbing

    Vanligvis er dette trinnet det mest tidkrevende. Hvis du vil opprette datasettet for modellering, konverterer dataforskeren alle dataene til samme format, organiserer dataene, fjerner det som ikke trengs, og erstatter eventuelle manglende data.

  5. Utforsk dataene

    Når dataene er renset, utforsker en dataforsker dataene og bruker statistiske analytiske teknikker for å avsløre relasjoner mellom datafunksjoner og statistiske relasjoner mellom dem og verdiene de forutser (kjent som en etikett). Den forutsagte etiketten kan være en kvantitativ verdi, for eksempel den økonomiske verdien av noe i fremtiden, eller varigheten av en flyforsinkelse i minutter.

    Utforskning og forberedelse involverer vanligvis mye interaktiv dataanalyse og visualisering – vanligvis ved hjelp av språk som Python og R i interaktive verktøy og miljøer som er spesielt utformet for denne oppgaven. Skriptene som brukes til å utforske dataene, driftes vanligvis i spesialiserte miljøer som Jupyter Notebooks. Disse verktøyene gjør det mulig for dataforskere å utforske dataene programmatisk mens de dokumenterer og deler innsiktene de finner.

  6. Modeller dataene

    Dataforskere bygger og lærer opp foreskrivende eller beskrivende modeller, og tester og evaluerer deretter modellen for å sikre at den besvarer spørsmålet eller adresserer forretningsproblemet. På sitt enkleste er en modell en kodebit som tar inndata og produserer et resultat. Utvikling av en maskinlæringsmodell involverer valg av algoritme, forsyne den med data og finjustere hyperparametere. Hyperparametere er justerbare parametere som lar dataforskere kontrollere modell-læringsprosessen. Med nevrale nettverk bestemmer dataforskeren for eksempel antall skjulte lag og antall noder i hvert enkelt lag. Finjustering av hyperparametere, også kalt optimalisering av hyperparametere, er prosessen bak å finne den konfigurasjonen av hyperparametere som fører til den beste ytelsen.

    Et vanlig spørsmål er «Hvilken maskinlæringsalgoritme bør jeg bruke?». En maskinlæringsalgoritme gjør et datasett om til en modell. Hvilken algoritme dataforskeren velger avhenger primært av to ulike aspekter ved dataforskningsscenariet:

    • Hva er forretningsspørsmålet dataforskeren ønsker å besvare ved å lære fra tidligere data?
    • Hva er kravene til dataforskerscenariet, inkludert nøyaktighet, opplæringstid, linearitet, antall parametere og antall funksjoner?

    For å bidra til å svare på disse spørsmålene inneholder Azure Machine Learning en omfattende portefølje av algoritmer, som Multiclass Decision Forest, anbefalingssystemer, Neural Network Regression, Multiclass Neural Network, og K-Means Clustering. Hver algoritme er utviklet for å adressere ulike typer maskinlæringsproblemer. I tillegg hjelper Azure Machine Learning Algorithm Cheat Sheet dataforskere med å velge den rette algoritmen for å besvare forretningsspørsmålet.

  7. Distribuer modellen

    Dataforskeren leverer den endelige modellen med dokumentasjon og distribuerer det nye datasettet til produksjon etter testing, slik at det kan spille en aktiv rolle i en bedrift. Prognoser fra en distribuert modell kan brukes til forretningsbeslutninger.

  8. Visualiser og kommuniser resultatene

    Visualiseringsverktøy som Microsoft Power BI, Tableau, Apache Superset og Metabase gjør det enkelt for dataforskeren å utforske dataene og generere vakre visualiseringer som viser resultatene på en måte som gjør det enkelt for ikke-tekniske målgrupper å forstå.

Dataforskere kan også bruke nettbaserte notatblokker for datavitenskap, for eksempel Zeppelin-notatblokker, gjennom store deler av prosessen for datainntak, oppdagelse, analyse, visualisering og samarbeid.

Metoder for datavitenskap

Dataforskere bruker statistiske metoder som hypotesetesting, faktoranalyse, regresjonsanalyse og gruppering for å avdekke statistisk pålitelig innsikt.

Dokumentasjon for datavitenskap

Selv om dokumentasjonen for datavitenskap varierer etter prosjekt og bransje, inneholder den vanligvis dokumentasjon som viser hvor dataene kommer fra, og hvordan de ble endret. Dette hjelper andre medlemmer av datateamet til å effektivt bruke dataene fremover. Dokumentasjonen hjelper for eksempel forretningsanalytikere med å bruke visualiseringsverktøy til å tolke datasettet.

Typer dokumentasjon for datavitenskap omfatter:

  • Prosjektplaner for å definere prosjektets forretningsmål, måledata for evalueringer, ressurser, tidslinje og budsjett.
  • Brukerhistorier for datavitenskap for å generere ideer til datavitenskapsprosjekter. Dataforskeren skriver historien fra interessentens synspunkt, som beskriver hva interessenten ønsker å oppnå og grunnen til at interessenten ber om prosjektet.
  • Dokumentasjon for datavitenskapsmodell for å dokumentere datasettet, eksperimentets utforming og algoritmene.
  • Dokumentasjon for støttesystemer inkludert brukerveiledninger, infrastrukturdokumentasjon for systemvedlikehold og kodedokumentasjon.

Hvordan bli dataforsker?

Det er flere veier til å bli dataforsker. Det er vanligvis krav om en grad innen informasjonsteknologi eller datavitenskap. Noen IT-eksperter lærer imidlertid datavitenskap gjennom bootcamps og nettkurs, og andre får en mastergrad eller lignende sertifisering i datavitenskap.

Hvis du vil lære hvordan du kan bli dataforsker, kan du dra nytte av disse opplæringsressursene fra Microsoft som er utformet for å hjelpe deg:

  • Kom raskt i gang. Les den kostnadsfrie Packt-e-boken Principles of Data Science, en nybegynnerguide til statistiske teknikker og teori. Du vil lære det grunnleggende om statistisk analyse og maskinlæring, nøkkelvilkår og datavitenskapsprosesser.
  • Bygg maskinlæringsferdighetene dine med Azure, Microsofts skyplattform. Utforsk Azure-maskinlæring for dataforskerressurser, inkludert gratis opplæringsvideoer, eksempel på løsningsarkitekturer og kundehistorier.
  • Oppnå maskinlæringsekspertise på Azure kostnadsfritt og på bare fire uker. Ta en time om dagen for å lære hvordan du skaper innovative løsninger på komplekse problemer. Du lærer det grunnleggende om hvordan du skalerer maskinlæringsprosjektene dine ved hjelp av de nyeste verktøyene og rammeverkene. Den egenstyrte Maskinlæringsveien Zero to hero forbereder deg også på Azure Data Scientist Associate-sertifikatet.
  • Få omfattende opplæring. Ta Læringsforløp for Microsoft-dataforskere, og velg fra en rekke selvgående og instruktørledede kurs. Finn ut hvordan du oppretter maskinlæringsmodeller, bruker visuelle verktøy, kjører arbeidsbelastninger for datavitenskap i skyen og bygger programmer som støtter naturlig språkbehandling.

Dataforskersertifiseringer

Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine innen datavitenskap og starte din karriere på. Det er høy etterspørsel etter Microsoft-sertifiserte fagpersoner, og det er jobber tilgjengelig for Azure-dataforskere akkurat nå. Utforsk dataforskersertifiseringer som er mest ettersøkt av arbeidsgivere:

  • Microsoft-sertifisert: Azure Data Scientist Associate. Bruk kunnskapen din om datavitenskap og maskinlæring til å implementere og kjøre arbeidsoppgaver for maskinlæring på Azure ved hjelp av Azure Machine Learning Service.
  • Microsoft-sertifisert: Customer Data Platform Specialty. Implementer løsninger som gir innsikt i kundeprofiler, og spor engasjementsaktiviteter for å forbedre kundeopplevelser og øke kundebevaringen.

Forskjeller mellom dataanalytikere og dataforskere

Som dataforskere arbeider dataanalytikere med store datasett for å avdekke trender i data. Dataforskere er imidlertid mer tekniske teammedlemmer som har mer ekspertise og ansvar, slik som å initiere og lede datavitenskapsprosjekter, bygge og trene opp maskinlæringsmodeller og presentere resultatene av prosjektene til ledere og på konferanser. Noen dataforskere utfører alle disse oppgavene, og andre fokuserer på bestemte oppgaver, for eksempel opplæringsalgoritmer eller bygging av modeller. Mange dataforskere begynte sin karriere som dataanalytikere, og dataanalytikere kan bli forfremmet til dataforskerstillinger i løpet av få år.

Dataforsker kontra dataanalytiker

Ikke tilgjengelig Dataanalytiker Dataforsker
Rolle Statistisk dataanalyse Utvikle løsninger på komplekse forretningsbehov ved hjelp av store data
Vanlige verktøy Microsoft Excel, SQL, Tableau, Power BI SQL, Python, R, Interval, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks
Analyse av datatyper Strukturerte data Strukturerte og ustrukturerte data
Oppgaver og plikter
  • Arbeid med interessenter for å definere prosjektene som er tilordnet av administrasjonen.
  • Bruk SQL til å spørre etter datakilder og samle riktig datasett.
  • Identifiser, rengjør og analyser data.
  • Tolk, visualiser og presenter resultatene til interessenter via sammendragsrapporter.
  • Start prosjekter på egen hånd basert på domenekunnskapene deres.
  • Bruk mer avanserte teknikker for statistikk, datautvinning, analyse og modellering, inkludert maskinlæring.
  • Oversett resultatene til anbefalinger som vil fremme forretningsresultater.
  • Visualiser resultatene deres effektivt og presenter dem til interessenter.

Vanlige spørsmål om datavitenskap

  • En dataforsker er ansvarlig for å hente ut verdifull informasjon. Organisasjoner bruker denne informasjonen til å forbedre hvordan de tar avgjørelser, løser problemer og optimaliserer driften.

    Finn ut mer om dataforskerrollen

  • Datavitenskap er studien av daa for å få kunnskap. Den kombinerer en rekke vitenskapelige disipliner for å trekke ut kunnskap fra massive datasett for å bidra til å gi informasjon om beslutninger og prognoser.

    Få en innføring i datavitenskap

  • Dataforskere leder forskningsprosjekter for å trekke ut verdifull informasjon og interaktiv innsikt fra store data. Dette omfatter å definere problemet som skal løses, skrive spørringer for å hente riktige data fra databaser, rydde opp og sortere data, bygge og kalibrere maskinlæringsmodeller og bruke datavisualiseringsteknikker for å effektivt kommunisere resultatene til interessenter.

    Finn ut hvordan dataforskere trekker ut kunnskap fra data

  • Selv om dokumentasjon for datavitenskap varierer etter prosjekt og bransje, omfatter den vanligvis prosjektplaner, brukerhistorier, modelldokumentasjon og dokumentasjon for å støtte systemer, for eksempel brukerveiledninger.

    Finn ut mer om dokumentasjon for datavitenskap

  • Noen IT-teknikere lærer datavitenskap ved å ta en mastergrad i datavitenskap eller sertifisering eller ta bootcamps og nettbaserte kurs. Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine for datavitenskap og få fart på karrieren din. Det er stor etterspørsel etter Microsoft-sertifiserte eksperter og det finnes jobber tilgjengelig for Azure-dataforskere akkurat nå.

    Utforsk ressurser og sertifiseringer for datavitenskap

  • Dataanalytikere og dataforskere arbeider med store datasett for å avdekke trender i data. Dataforskere har imidlertid vanligvis mer teknisk ekspertise og ansvar når det gjelder å starte forskningsprosjektene sine. En dataanalytiker kan for eksempel bli bedt om å fullføre statistisk dataanalyse, mens en dataforsker kan bli bedt om å utvikle løsninger på komplekse forretningsbehov ved å grave i stordata.

    Se en sammenligning av dataforsker- og dataanalytikeransvar

  • Datavitenskapsprosjekter varierer etter bransje- og organisasjonsbehov. I en forretningssetting kan for eksempel en dataforsker lede et forskningsprosjekt i hvordan man kan forbedre kundeserviceopplevelsene. Dataene som kreves inkluderer ikke bare strukturerte data som måledata for nettsteder og transaksjoner, men også ustrukturerte data som brukergjennomganger og notater fra kundeserviceteam. Den detaljerte analysen av alle disse ulike datakildene vil gi innsikt som kan bidra til å gi informasjon om anbefalte endringer i gjeldende prosedyrer.
  • I virksomheter er det vanligste målet med datavitenskap å forbedre hvordan organisasjoner fungerer. Innsikten fra å analysere en mengde organisasjonsdata sammen kan bidra til å løse eksisterende utfordringer eller generere ideer for nye måter å drive virksomhet på.
  • Ja, selv om dataforskere kanskje ikke trenger samme kompetanse på koding som programmerere. Dataforskere kan bruke programmeringsspråk som Julia, R eller Python til å skrive spørringer. Python er også populært fordi det er relativt enkelt å lære og bruke.
  • Krav til datavitenskapsroller kan variere, men de inkluderer vanligvis minst én av følgende:

    • En grad i informasjonsteknologi eller datavitenskap.
    • Fullføring av en datavitenskapelig bootcamp eller nettkurs.
    • En mastergrad i datavitenskap eller sertifisering.

    Microsoft tilbyr en rekke opplæringsressurser og læreprogrammer for å komme i gang med å bli dataforsker.

Kom i gang med en gratis konto i Azure

Gled deg over populære Azure-tjenester gratis i 12 måneder, mer enn 55 tjenester alltid gratis og $200 i kreditt som skal brukes i de første 30 dagene.

Kom i kontakt med en Azure AI-selger

Få råd om hvordan du kommer i gang med Azure AI. Still spørsmål, lær om priser og anbefalte fremgangsmåter, og få hjelp til å utforme en løsning som dekker dine behov.

Kan vi hjelpe deg?