Hva er datavitenskap?
Datavitenskap er et tverrfaglig vitenskapelig studie av data med det formål å trekke ut viktige data og informasjon for handlingsrettet innsikt.
Hva er en dataforsker?
En dataforsker leder forskningsprosjekter for å trekke ut verdifull informasjon fra store data, og er kvalifisert innen teknologi, matematikk, forretninger og kommunikasjon. Organisasjoner bruker denne informasjonen til å ta bedre avgjørelser, løse komplekse problemer og forbedre driften. Ved å avsløre anvendelig innsikt som er skjult i store datasett, kan en dataforsker forbedre sitt firmas evne til å oppnå sine mål betydelig. Det er derfor det er høy etterspørsel etter dataforskere, og at de til og med anses som "rockestjerner" i forretningsverden.
Datavitenskap definert
Datavitenskap er den vitenskapelige studien av data for å få kunnskap. Dette feltet kombinerer flere fagområder for å trekke ut kunnskap fra massive datasett for å ta informerte beslutninger og prognoser. Dataforskere, dataanalytikere, dataarkitekter, dataingeniører, statistikere, databaseadministratorer og forretningsanalytikere arbeider alle i datavitenskapsfeltet.
Behovet for datavitenskap vokser raskt etter hvert som mengden data øker eksponentielt, og etter hvert som selskaper blir mer avhengig av analyser for å drive fram inntekter og innovasjon. For eksempel, etter hvert som forretningssamhandlinger blir mer digitale, skapes det mer data, som gir nye muligheter til å få innsikt i hvordan du tilpasser opplevelser bedre, forbedrer servicen og kundetilfredsheten, utvikler nye og forbedrede produkter og øker salget. I tillegg har datavitenskapen potensial til å løse noen av verdens vanskeligste utfordringer innen forretningsverden og ellers.
Hva gjør en dataforsker?
En dataforsker samler inn, analyserer og tolker stordata for å avdekke mønstre og innsikt, lage prognoser og opprette handlingsplaner. Stordata kan defineres som datasett som har større variasjon, volum og hastighet enn tidligere metoder for databehandling. Dataforskere arbeider med mange typer stordata, inkludert:
- Strukturerte data, som vanligvis organiseres i rader og kolonner og inneholder ord og tall, for eksempel navn, datoer og kredittkortinformasjon. En dataforsker i verktøybransjen kan for eksempel analysere tabeller for kraftgenerering og bruksdata for å bidra til å redusere kostnader og oppdage mønstre som kan føre til at utstyret svikter.
- Ustrukturerte data, som er uorganisert og inkluderer tekst i dokumentfiler, sosiale medier og mobildata, nettstedsinnhold og videoer. En dataforsker i detaljhandelen kan for eksempel svare på et spørsmål om å forbedre kundeopplevelsen ved å analysere ustrukturerte telefonsenternotater, e-postmeldinger, undersøkelser og innlegg på sosiale medier.
I tillegg kan egenskapene til datasettet beskrives som kvantitative, strukturerte numeriske data eller kvalitative eller kategoriske data, som ikke representeres gjennom numeriske verdier og kan grupperes basert på kategorier. Det er viktig for dataforskere å vite hvilken type data de arbeider med, da det direkte påvirker typen analyser de utfører, og hvilke typer grafer de kan bruke til å visualisere dataene.
For å få kunnskap fra alle disse datatypene bruker dataforskere sine ferdigheter i:
- Datamaskinprogrammering. Dataforskere skriver spørringer ved hjelp av språk som Julia, R eller Python for å hente data fra selskapets database. Python er språket mange dataforskere velger fordi det er enkelt å lære og bruke, selv for personer uten kodingserfaring, og tilbyr forhåndsbygde datavitenskapsmoduler for dataanalyse.
- Matematikk, statistikk og sannsynlighet. Dataforskere bruker disse ferdighetene til å analysere data, teste hypoteser og bygge maskinlæringsmodeller – filer som dataforskere lærer opp for å gjenkjenne visse typer mønstre. Dataforskere bruker opplærte maskinlæringsmodeller til å oppdage relasjonene i data, lage prognoser om data og finne løsninger på problemer. I stedet for å bygge og lære opp modeller fra grunnen av, kan dataforskere også dra nytte av automatisert maskinlæring for å få tilgang til produksjonsklare maskinlæringsmodeller.
- Domenekunnskap. Hvis dataforskere skal oversette data til relevante og meningsfulle innsikter som fremmer forretningsresultater, trenger de også domenekunnskap – en forståelse av bransjen og firmaet der de arbeider. Her er noen eksempler på hvordan dataforskere vil bruke domenekunnskapene sine til å løse bransjespesifikke problemer.
Typer datavitenskapsprosjekter
Bransje | Typer datavitenskapsprosjekter |
---|---|
Bedrift |
Ny produktutvikling og produktforbedringer
Administrasjon av forsyningskjede og lagerbeholdning Forbedringer i kundeservice Produktanbefalinger til e-handelkunder |
Underholdning |
Forståelse av bruksmønstre for medieinnhold
Innholdsutvikling basert på målmarkedsdata Måling av innholdsytelse Tilpassede anbefalinger basert på brukerinnstillinger |
Økonomi og banktjenester |
Forebygging av svindel og andre sikkerhetsbrudd
Risikostyring av investeringsporteføljer Virtuelle assistenter for å hjelpe kunder med spørsmål |
Myndigheter |
Policybeslutninger
Overvåking av medlemstilfredshet Svindelgjenkjenning, for eksempel krav om sosial funksjonshemming |
Helsesektoren |
Bevisbasert rusmiddelbehandling og kostnadseffektivitet for nye rusmidler
Sanntidssporing av sykdomsutbrudd Bærbare sporere for å forbedre pasientbehandling |
Telekommunikasjon |
Tjenesteforbedringer basert på brukerpreferanser og plasseringer
Minimering av tapte anrop og andre tjenesteproblemer |
Verktøy |
Smartmåleranalyse for å forbedre bruk av verktøy og kundetilfredshet
Forbedret administrasjon av aktiva og arbeidsstyrke |
Det finnes en annen ferdighet som er avgjørende for spørsmålet "Hva gjør en dataforsker?" Effektiv kommunikasjon av resultatene fra analysene til avdelingsledere, overordnede ledere og andre interessenter er en av de viktigste delene av jobben. Dataforskere må gjøre resultatene enkle å forstå for en ikke-teknisk målgruppe, slik at de kan bruke innsiktene til å ta informerte beslutninger. Derfor må dataforskere være kvalifisert innen:
- Kommunikasjon, offentlige taler og datavisualisering. Gode dataforskere har sterke verbale kommunikasjonsferdigheter, deriblan med historiefortelling og offentlige taler. Innen datavitenskap er et bilde virkelig verdt tusen ord. Ved å presentere datavitenskapsfunn ved hjelp av grafer og diagrammer kan publikum forstå data raskt, på så lite som fem sekunder eller mindre. Av den grunn tar vellykkede dataforskere datavisualiseringene sine like alvorlig som analysene.
Prosess for datavitenskap
Dataforskere følger en lignende prosess for å fullføre prosjektene sine:
-
Definer forretningsproblemet
Dataforskeren samarbeider med interessenter for å tydelig definere problemet de ønsker å løse, eller spørsmålet de må svare på, sammen med prosjektets mål og løsningskrav.
-
Definer den analytiske tilnærmingen
Basert på forretningsproblemet bestemmer dataforskeren hvilken analytisk tilnærming som skal følges:
- Beskrivende for mer informasjon om gjeldende status.
- Diagnose for å forstå hva som skjer og hvorfor.
- Prediktiv for å forutsi hva som vil skje.
- Beskrivende for å forstå hvordan du løser problemet.
-
Hent dataene
Dataforskeren identifiserer og henter dataene som kreves for å oppnå ønsket resultat. Dette kan omfatte spørring av databaser, uttrekking av informasjon fra nettsteder (nettskraping) eller henting av data fra filer. Dataene kan være internt tilgjengelige, eller teamet må kanskje kjøpe dataene. I noen tilfeller må organisasjoner kanskje samle inn nye data for å kunne kjøre et prosjekt.
-
Rens dataene, også kalt skrubbing
Vanligvis er dette trinnet det mest tidkrevende. Hvis du vil opprette datasettet for modellering, konverterer dataforskeren alle dataene til samme format, organiserer dataene, fjerner det som ikke trengs, og erstatter eventuelle manglende data.
-
Utforsk dataene
Når dataene er renset, utforsker en dataforsker dataene og bruker statistiske analytiske teknikker for å avsløre relasjoner mellom datafunksjoner og statistiske relasjoner mellom dem og verdiene de forutser (kjent som en etikett). Den forutsagte etiketten kan være en kvantitativ verdi, for eksempel den økonomiske verdien av noe i fremtiden, eller varigheten av en flyforsinkelse i minutter.
Utforskning og forberedelse involverer vanligvis mye interaktiv dataanalyse og visualisering – vanligvis ved hjelp av språk som Python og R i interaktive verktøy og miljøer som er spesielt utformet for denne oppgaven. Skriptene som brukes til å utforske dataene, driftes vanligvis i spesialiserte miljøer som Jupyter Notebooks. Disse verktøyene gjør det mulig for dataforskere å utforske dataene programmatisk mens de dokumenterer og deler innsiktene de finner.
-
Modeller dataene
Dataforskere bygger og lærer opp foreskrivende eller beskrivende modeller, og tester og evaluerer deretter modellen for å sikre at den besvarer spørsmålet eller adresserer forretningsproblemet. På sitt enkleste er en modell en kodebit som tar inndata og produserer et resultat. Utvikling av en maskinlæringsmodell involverer valg av algoritme, forsyne den med data og finjustere hyperparametere. Hyperparametere er justerbare parametere som lar dataforskere kontrollere modell-læringsprosessen. Med nevrale nettverk bestemmer dataforskeren for eksempel antall skjulte lag og antall noder i hvert enkelt lag. Finjustering av hyperparametere, også kalt optimalisering av hyperparametere, er prosessen bak å finne den konfigurasjonen av hyperparametere som fører til den beste ytelsen.
Et vanlig spørsmål er «Hvilken maskinlæringsalgoritme bør jeg bruke?». En maskinlæringsalgoritme gjør et datasett om til en modell. Hvilken algoritme dataforskeren velger avhenger primært av to ulike aspekter ved dataforskningsscenariet:
- Hva er forretningsspørsmålet dataforskeren ønsker å besvare ved å lære fra tidligere data?
- Hva er kravene til dataforskerscenariet, inkludert nøyaktighet, opplæringstid, linearitet, antall parametere og antall funksjoner?
For å bidra til å svare på disse spørsmålene inneholder Azure Machine Learning en omfattende portefølje av algoritmer, som Multiclass Decision Forest, anbefalingssystemer, Neural Network Regression, Multiclass Neural Network, og K-Means Clustering. Hver algoritme er utviklet for å adressere ulike typer maskinlæringsproblemer. I tillegg hjelper Azure Machine Learning Algorithm Cheat Sheet dataforskere med å velge den rette algoritmen for å besvare forretningsspørsmålet.
-
Distribuer modellen
Dataforskeren leverer den endelige modellen med dokumentasjon og distribuerer det nye datasettet til produksjon etter testing, slik at det kan spille en aktiv rolle i en bedrift. Prognoser fra en distribuert modell kan brukes til forretningsbeslutninger.
-
Visualiser og kommuniser resultatene
Visualiseringsverktøy som Microsoft Power BI, Tableau, Apache Superset og Metabase gjør det enkelt for dataforskeren å utforske dataene og generere vakre visualiseringer som viser resultatene på en måte som gjør det enkelt for ikke-tekniske målgrupper å forstå.
Dataforskere kan også bruke nettbaserte notatblokker for datavitenskap, for eksempel Zeppelin-notatblokker, gjennom store deler av prosessen for datainntak, oppdagelse, analyse, visualisering og samarbeid.
Metoder for datavitenskap
Dataforskere bruker statistiske metoder som hypotesetesting, faktoranalyse, regresjonsanalyse og gruppering for å avdekke statistisk pålitelig innsikt.
Dokumentasjon for datavitenskap
Selv om dokumentasjonen for datavitenskap varierer etter prosjekt og bransje, inneholder den vanligvis dokumentasjon som viser hvor dataene kommer fra, og hvordan de ble endret. Dette hjelper andre medlemmer av datateamet til å effektivt bruke dataene fremover. Dokumentasjonen hjelper for eksempel forretningsanalytikere med å bruke visualiseringsverktøy til å tolke datasettet.
Typer dokumentasjon for datavitenskap omfatter:
- Prosjektplaner for å definere prosjektets forretningsmål, måledata for evalueringer, ressurser, tidslinje og budsjett.
- Brukerhistorier for datavitenskap for å generere ideer til datavitenskapsprosjekter. Dataforskeren skriver historien fra interessentens synspunkt, som beskriver hva interessenten ønsker å oppnå og grunnen til at interessenten ber om prosjektet.
- Dokumentasjon for datavitenskapsmodell for å dokumentere datasettet, eksperimentets utforming og algoritmene.
- Dokumentasjon for støttesystemer inkludert brukerveiledninger, infrastrukturdokumentasjon for systemvedlikehold og kodedokumentasjon.
Hvordan bli dataforsker?
Det er flere veier til å bli dataforsker. Det er vanligvis krav om en grad innen informasjonsteknologi eller datavitenskap. Noen IT-eksperter lærer imidlertid datavitenskap gjennom bootcamps og nettkurs, og andre får en mastergrad eller lignende sertifisering i datavitenskap.
Hvis du vil lære hvordan du kan bli dataforsker, kan du dra nytte av disse opplæringsressursene fra Microsoft som er utformet for å hjelpe deg:
- Kom raskt i gang. Les den kostnadsfrie Packt-e-boken Principles of Data Science, en nybegynnerguide til statistiske teknikker og teori. Du vil lære det grunnleggende om statistisk analyse og maskinlæring, nøkkelvilkår og datavitenskapsprosesser.
- Bygg maskinlæringsferdighetene dine med Azure, Microsofts skyplattform. Utforsk Azure-maskinlæring for dataforskerressurser, inkludert gratis opplæringsvideoer, eksempel på løsningsarkitekturer og kundehistorier.
- Oppnå maskinlæringsekspertise på Azure kostnadsfritt og på bare fire uker. Ta en time om dagen for å lære hvordan du skaper innovative løsninger på komplekse problemer. Du lærer det grunnleggende om hvordan du skalerer maskinlæringsprosjektene dine ved hjelp av de nyeste verktøyene og rammeverkene. Den egenstyrte Maskinlæringsveien Zero to hero forbereder deg også på Azure Data Scientist Associate-sertifikatet.
- Få omfattende opplæring. Ta Læringsforløp for Microsoft-dataforskere, og velg fra en rekke selvgående og instruktørledede kurs. Finn ut hvordan du oppretter maskinlæringsmodeller, bruker visuelle verktøy, kjører arbeidsbelastninger for datavitenskap i skyen og bygger programmer som støtter naturlig språkbehandling.
Dataforskersertifiseringer
Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine innen datavitenskap og starte din karriere på. Det er høy etterspørsel etter Microsoft-sertifiserte fagpersoner, og det er jobber tilgjengelig for Azure-dataforskere akkurat nå. Utforsk dataforskersertifiseringer som er mest ettersøkt av arbeidsgivere:
- Microsoft-sertifisert: Azure Data Scientist Associate. Bruk kunnskapen din om datavitenskap og maskinlæring til å implementere og kjøre arbeidsoppgaver for maskinlæring på Azure ved hjelp av Azure Machine Learning Service.
- Microsoft-sertifisert: Customer Data Platform Specialty. Implementer løsninger som gir innsikt i kundeprofiler, og spor engasjementsaktiviteter for å forbedre kundeopplevelser og øke kundebevaringen.
Forskjeller mellom dataanalytikere og dataforskere
Som dataforskere arbeider dataanalytikere med store datasett for å avdekke trender i data. Dataforskere er imidlertid mer tekniske teammedlemmer som har mer ekspertise og ansvar, slik som å initiere og lede datavitenskapsprosjekter, bygge og trene opp maskinlæringsmodeller og presentere resultatene av prosjektene til ledere og på konferanser. Noen dataforskere utfører alle disse oppgavene, og andre fokuserer på bestemte oppgaver, for eksempel opplæringsalgoritmer eller bygging av modeller. Mange dataforskere begynte sin karriere som dataanalytikere, og dataanalytikere kan bli forfremmet til dataforskerstillinger i løpet av få år.
Dataforsker kontra dataanalytiker
Dataanalytiker | Dataforsker | |
---|---|---|
Rolle | Statistisk dataanalyse | Utvikle løsninger på komplekse forretningsbehov ved hjelp av store data |
Vanlige verktøy | Microsoft Excel, SQL, Tableau, Power BI | SQL, Python, R, Interval, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks |
Analyse av datatyper | Strukturerte data | Strukturerte og ustrukturerte data |
Oppgaver og plikter |
|
|
Tilleggsressurser
Utforsk
Vanlige spørsmål om datavitenskap
-
En dataforsker er ansvarlig for å hente ut verdifull informasjon. Organisasjoner bruker denne informasjonen til å forbedre hvordan de tar avgjørelser, løser problemer og optimaliserer driften.
-
Datavitenskap er studien av daa for å få kunnskap. Den kombinerer en rekke vitenskapelige disipliner for å trekke ut kunnskap fra massive datasett for å bidra til å gi informasjon om beslutninger og prognoser.
-
Dataforskere leder forskningsprosjekter for å trekke ut verdifull informasjon og interaktiv innsikt fra store data. Dette omfatter å definere problemet som skal løses, skrive spørringer for å hente riktige data fra databaser, rydde opp og sortere data, bygge og kalibrere maskinlæringsmodeller og bruke datavisualiseringsteknikker for å effektivt kommunisere resultatene til interessenter.
-
Selv om dokumentasjon for datavitenskap varierer etter prosjekt og bransje, omfatter den vanligvis prosjektplaner, brukerhistorier, modelldokumentasjon og dokumentasjon for å støtte systemer, for eksempel brukerveiledninger.
-
Noen IT-teknikere lærer datavitenskap ved å ta en mastergrad i datavitenskap eller sertifisering eller ta bootcamps og nettbaserte kurs. Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine for datavitenskap og få fart på karrieren din. Det er stor etterspørsel etter Microsoft-sertifiserte eksperter og det finnes jobber tilgjengelig for Azure-dataforskere akkurat nå.
-
Dataanalytikere og dataforskere arbeider med store datasett for å avdekke trender i data. Dataforskere har imidlertid vanligvis mer teknisk ekspertise og ansvar når det gjelder å starte forskningsprosjektene sine. En dataanalytiker kan for eksempel bli bedt om å fullføre statistisk dataanalyse, mens en dataforsker kan bli bedt om å utvikle løsninger på komplekse forretningsbehov ved å grave i stordata.
-
Datavitenskapsprosjekter varierer etter bransje- og organisasjonsbehov. I en forretningssetting kan for eksempel en dataforsker lede et forskningsprosjekt i hvordan man kan forbedre kundeserviceopplevelsene. Dataene som kreves inkluderer ikke bare strukturerte data som måledata for nettsteder og transaksjoner, men også ustrukturerte data som brukergjennomganger og notater fra kundeserviceteam. Den detaljerte analysen av alle disse ulike datakildene vil gi innsikt som kan bidra til å gi informasjon om anbefalte endringer i gjeldende prosedyrer.
-
I virksomheter er det vanligste målet med datavitenskap å forbedre hvordan organisasjoner fungerer. Innsikten fra å analysere en mengde organisasjonsdata sammen kan bidra til å løse eksisterende utfordringer eller generere ideer for nye måter å drive virksomhet på.
-
Ja, selv om dataforskere kanskje ikke trenger samme kompetanse på koding som programmerere. Dataforskere kan bruke programmeringsspråk som Julia, R eller Python til å skrive spørringer. Python er også populært fordi det er relativt enkelt å lære og bruke.
-
Krav til datavitenskapsroller kan variere, men de inkluderer vanligvis minst én av følgende:
- En grad i informasjonsteknologi eller datavitenskap.
- Fullføring av en datavitenskapelig bootcamp eller nettkurs.
- En mastergrad i datavitenskap eller sertifisering.
Microsoft tilbyr en rekke opplæringsressurser og læreprogrammer for å komme i gang med å bli dataforsker.
Kom i gang med en gratis konto i Azure
Gled deg over populære Azure-tjenester gratis i 12 måneder, mer enn 55 tjenester alltid gratis og $200 i kreditt som skal brukes i de første 30 dagene.
Kom i kontakt med en Azure AI-selger
Få råd om hvordan du kommer i gang med Azure AI. Still spørsmål, lær om priser og anbefalte fremgangsmåter, og få hjelp til å utforme en løsning som dekker dine behov.