Hva er datavitenskap?
Datavitenskap er en tverrfaglig vitenskapelig studie av data med det formål å trekke ut viktige data og informasjon for anvendelig innsikt.
Hva er en dataforsker?
En dataforsker leder forskningsprosjekter for å trekke ut verdifull informasjon fra stordata og har kompetanse innen teknologi, matematikk, forretningsvirksomhet og kommunikasjon. Organisasjoner bruker denne informasjonen til å ta bedre beslutninger, løse komplekse problemer og forbedre driften. Ved å åpenbare anvendelig innsikt som er skjult i store datasett, kan en dataforsker forbedre bedriftens evne til å oppnå målene sine betraktelig. Dette er grunnen til at det er stor etterspørsel etter dataforskere, og at de til og med regnes som "rockestjerner" i forretningsverdenen.
Definisjonen på datavitenskap
Datavitenskap er den vitenskapelige studien av data for å få kunnskap. Dette feltet kombinerer flere disipliner for å trekke ut kunnskap fra massive datasett med det formål å ta informerte beslutninger og gjøre prediksjoner. Dataforskere, dataanalytikere, dataarkitekter, datateknikere, statistikere, databaseadministratorer og forretningsanalytikere arbeider alle i datavitenskapsfeltet.
Behovet for datavitenskap vokser raskt etter hvert som datamengden øker eksponentielt, og selskaper er mer avhengige av analyse for å drive inntekter og innovasjon. Etter hvert som forretningssamhandlinger for eksempel blir mer digitale, opprettes det flere data, noe som gir nye muligheter til å få innsikt i hvordan du kan tilpasse opplevelser bedre, forbedre service og kundetilfredshet, utvikle nye og forbedrede produkter og øke salget. I tillegg har datavitenskap, både i forretningsverdenen og utenfor, potensialet til å bidra til å løse noen av verdens vanskeligste utfordringer.
Hva gjør en dataforsker?
En dataforsker samler inn, analyserer og tolker stordata for å avdekke mønstre og innsikt, gjøre prediksjoner og opprette handlingsplaner. StordataanalyseStordata kan defineres som datasett som har større variasjon, volum og hastighet enn tidligere metoder for dataadministrasjon var utstyrt for å håndtere. Dataforskere arbeider med mange typer stordata, inkludert:
- Strukturerte data, som vanligvis er organisert i rader og kolonner og inneholder ord og tall, for eksempel navn, datoer og kredittkortinformasjon. En dataforsker i verktøybransjen kan for eksempel analysere tabeller for kraftgenerering og bruksdata for å bidra til å redusere kostnader og oppdage mønstre som kan føre til at utstyret svikter.
- Ustrukturerte data, som er uorganisert og inkluderer tekst i dokumentfiler, sosiale medier og mobildata, nettstedinnhold og videoer. En dataforsker i detaljhandelbransjen kan for eksempel svare på et spørsmål om å forbedre kundeopplevelsen ved å analysere ustrukturerte telefonsenternotater, e-postmeldinger, undersøkelser og innlegg på sosiale medier.
I tillegg kan egenskapene til datasettet beskrives som kvantitative, strukturerte numeriske data eller kvalitative eller kategoriske data, som ikke representeres gjennom numeriske verdier og kan grupperes basert på kategorier. Det er viktig for dataforskere å vite hvilken type data de arbeider med, da det direkte påvirker analysetypene de utfører, og diagramtypene de kan bruke til å visualisere dataene.
For å få kunnskap fra alle disse datatypene bruker dataforskere ferdighetene sine i:
- Dataprogrammering. Dataforskere skriver spørringer ved hjelp av språk som Julia, R eller Python for å hente data fra bedriftens database. Python er et valgfritt språk for mange dataforskere fordi det er enkelt å lære og bruke, selv for personer uten kodingsopplevelse, og tilbyr forhåndsbygde datavitenskapsmoduler for dataanalyse.
- Matematikk, statistikk og sannsynlighet. Dataforskere bruker disse ferdighetene til å analysere data, teste hypoteser og bygge maskinlæringsmodellfiler—som dataforskere lærer opp for å gjenkjenne visse typer mønstre. Dataforskere bruker opplærte maskinlæringsmodeller til å oppdage relasjonene i data, lage prognoser om data og finne løsninger på problemer. I stedet for å bygge og lære opp modeller fra grunnen av kan dataforskere også dra nytte av automatisertmaskinlæring for å få tilgang til produksjonsklare maskinlæringsmodeller.
- Domenekunnskap. For å oversette data til relevant og meningsfylt innsikt som fremmer forretningsresultater, trenger dataforskere også domenekunnskap—for å forstå bransjen og bedriften der de arbeider. Her er noen eksempler på hvordan dataforskere bruker domenekunnskapen sin til å løse bransjespesifikke problemer.
Typer datavitenskapelige prosjekter
Bransje | Typer datavitenskapelige prosjekter |
---|---|
Bedrifter | Ny produktutvikling og produktforbedringer Administrasjon av forsyningskjede og lagerbeholdning Forbedringer i kundeservice Produktanbefalinger til e-handelskunder |
Underholdning | Forståelse av bruksmønstre for medieinnhold Innholdsutvikling basert på målmarkedsdata Måling av innholdsytelse Tilpassede anbefalinger basert på brukerinnstillinger |
Økonomi og banktjenester | Forebygging av svindel og andre sikkerhetsbrudd Risikostyring av investeringsporteføljer Virtuelle assistenter for å hjelpe kunder med spørsmål |
Offentlig sektor | Policybeslutninger Overvåking av komponenttilfredshet Svindeloppdagelse, for eksempel erklæringer om sosial funksjonshemning |
Helsevesen | Bevisbasert rusmiddelbehandling og kostnadseffektivitet av nye rusmidler Sanntidssporing av sykdomsutbrudd Bærbare sporere for å forbedre pasientbehandling |
Telekommunikasjon | Tjenesteforbedringer basert på brukerinnstillinger og plasseringer Minimering av tapte anrop og andre tjenesteproblemer |
Offentlige tjenester | Smart måleranalyse for å forbedre bruk av offentlige tjenester og kundetilfredshet Forbedret ressurs- og arbeidsstyrkeadministrasjon |
Det finnes en annen ferdighet som er avgjørende når det kommer til spørsmålet "Hva gjør en dataforsker?" Effektiv kommunikasjon av resultatene av analysene til administratorer, ledere og andre interessenter er en av de viktigste delene av jobben. Dataforskere må gjøre resultatene enkle å forstå for en ikke-teknisk målgruppe, slik at de kan bruke innsikten til å ta informerte beslutninger. Derfor trenger dataforskere å være dyktige innen:
- Kommunikasjon, offentlige taler og datavisualisering. Gode dataforskere har sterke verbale kommunikasjonsferdigheter, inkludert evnen til å fortelle historier og til å holde offentlige taler. Når det gjelder datavitenskap, er et bilde virkelig verdt tusen ord. Ved å presentere datavitenskapsresultater ved hjelp av grafer og diagrammer kan publikum forstå dataene raskt, på så lite som fem sekunder eller mindre. Derfor tar vellykkede dataforskere datavisualiseringene like alvorlig som analysene sine.
Datavitenskapelige prosesser
Dataforskere følger en lignende prosess for å fullføre prosjektene sine:
1. Definere forretningsproblemet
Dataforskeren samarbeider med interessenter for å tydelig definere problemet de ønsker å løse, eller stille spørsmål som de trenger å svare på, sammen med prosjektets målsettinger og løsningskrav.
2. Definere den analytiske tilnærmingen
Basert på forretningsproblemet bestemmer dataforskeren hvilken analytisk tilnærming som skal følges:
- Beskrivende for mer informasjon om gjeldende status.
- Diagnostisk for å forstå hva som skjer og hvorfor.
- Prediktiv for å forutsi hva som vil skje.
- Beskrivende for å forstå hvordan man løser problemet.
3. Hente dataene
Dataforskeren identifiserer og henter dataene som kreves for å oppnå ønsket resultat. Dette kan innebære spørring av databaser, uttrekking av informasjon fra nettsteder (nettskraping) eller henting av data fra filer. Dataene kan være internt tilgjengelige, eller teamet må kanskje kjøpe dataene. I noen tilfeller kan det hende at organisasjoner må samle inn nye data for å kunne kjøre et prosjekt.
4. Rengjøre dataene, også kalt skyvespoling
Dette trinnet er vanligvis det mest tidkrevende. For å opprette datasettet for modellering konverterer dataforskeren alle dataene til samme format, organiserer dataene, fjerner det som ikke er nødvendig og erstatter eventuelle manglende data.
5. Utforske dataene
Når dataene er renset, utforsker en dataforsker dataene og bruker statistiske analytiske teknikker for å avsløre relasjoner mellom datafunksjoner og statistiske relasjoner mellom dem og verdiene de forutser (kjent som en etikett). Den forutsagte etiketten kan være en kvantitativ verdi, for eksempel den økonomiske verdien av noe i fremtiden eller varigheten av et forsinket fly i minutter.
Utforskning og forberedelse involverer vanligvis mye interaktiv dataanalyse og visualisering—som vanligvis bruker språk som Python og R i interaktive verktøy og miljøer som er spesielt utformet for denne oppgaven. Skriptene som brukes til å utforske dataene, driftes vanligvis i spesialiserte miljøer som Jupyter Notebooks. Disse verktøyene gjør det mulig for dataforskere å utforske dataene programmatisk mens de dokumenterer og deler innsiktene de finner.
6. Modellere dataene
Dataforskeren bygger og trener opp preskriptive eller beskrivende modeller, tester og evaluerer modellen for å sikre at den svarer på spørsmålet eller løser forretningsproblemet. På sitt enkleste er en modell en kodedel som tar inndata og produserer utdata. Oppretting av en maskinlæringsmodell innebærer å velge en algoritme, gi den data og justere hyperparametere. Hyperparametere er justerbare parametere som lar dataforskere kontrollere modellopplæringsprosessen. Med nevrale nettverk bestemmer dataforskeren for eksempel antall skjulte lag og antall noder i hvert lag. Hyperparameterjustering av en modellHyperparameterjustering, også kalt hyperparameteroptimalisering, er prosessen med å finne konfigurasjonen av hyperparametere som resulterer i best ytelse.
Et vanlig spørsmål er "Hvilken maskinlæringsalgoritme bør jeg bruke?" En maskinlæringsalgoritme gjør et datasett om til en modell. Algoritmen dataforskeren velger, avhenger hovedsakelig av to ulike aspekter av datavitenskapsscenariet:
- Hva er forretningsspørsmålet som dataforskeren ønsker å svare på ved å lære fra tidligere data?
- Hva er kravene til datavitenskapsscenariet, inkludert nøyaktighet, opplæringstid, linearitet, antall parametere og antall funksjoner?
For å svare på disse spørsmålene gir Azure Machine Learning en omfattende portefølje av algoritmer, for eksempel Komponent for flerklasses beslutningsskogflerklasses beslutningsskog, anbefalingssystemer, nevral nettverksregresjon, flerklasses nevralt nettverk, og K-Means-klynging. Hver algoritme er utformet for å løse ulike typer maskinlæringsproblemer. I tillegg hjelper Azure Machine Learning Algorithm Cheat Sheet dataforskere med å velge den riktige algoritmen for å svare på forretningsspørsmålet.
7. Distribuere modellen
Dataforskeren leverer den endelige modellen med dokumentasjon og distribuerer det nye datasettet i produksjon etter testing, slik at den kan spille en aktiv rolle i en bedrift. Prediksjoner fra en distribuert modell kan brukes til forretningsbeslutninger.
8. Visualisere og formidle resultatene
Visualiseringsverktøy som Microsoft Power BI, Tableau, Apache Superset og Metabase gjør det enkelt for dataforskeren å utforske dataene og generere vakre visualiseringer som viser resultatene på en måte som gjør det enkelt for ikke-tekniske målgrupper å forstå.
Dataforskere kan også bruke nettbaserte notatblokker innen datavitenskap, for eksempel Zeppelin Notebooks, i store deler av prosessen med datainntak, oppdagelse, analyse, visualisering og samarbeid.
Metoder innen datavitenskap
Dataforskere bruker statistiske metoder som hypotesetesting, faktoranalyse, regresjonsanalyse og klynging for å avdekke statistisk lydinnsikt.
Dokumentasjon for datavitenskap
Selv om dokumentasjonen for datavitenskap varierer etter prosjekt og bransje, inneholder den vanligvis dokumentasjon som viser hvor dataene kommer fra, og hvordan de ble endret. Dette hjelper andre medlemmer av datateamet med å effektivt bruke dataene fremover. Dokumentasjonen hjelper for eksempel forretningsanalytikere med å bruke visualiseringsverktøy til å tolke datasettet.
Typer av dokumentasjon for datavitenskap inkluderer:
- Prosjektplaner for å definere prosjektets mål, evalueringsmåledata, ressurser, tidslinje og budsjett.
- Brukerhistorier om datavitenskap for å generere ideer for datavitenskapsprosjekter. Dataforskeren skriver historien fra interessentens synspunkt, som beskriver hva interessenten ønsker å oppnå, og grunnen til at interessenten ber om prosjektet.
- Dokumentasjon for datavitenskapsmodell for å dokumentere datasettet, eksperimentets utforming og algoritmene.
- Dokumentasjon for støttesystemer som inkluderer brukerveiledninger, infrastrukturdokumentasjon for systemvedlikehold og kodedokumentasjon.
Slik blir du en dataforsker
Det finnes flere måter å bli en dataforsker på. Kravene omfatter vanligvis en grad i informasjonsteknologi eller datavitenskap. Noen IT-eksperter lærer imidlertid datavitenskap ved å ta fordypningskurs og nettbaserte kurs, og andre oppnår en grad eller sertifisering innen datavitenskap.
Hvis du vil lære hvordan du kan bli en dataforsker, kan du dra nytte av disse opplæringsressursene fra Microsoft som er utformet for å hjelpe deg:
- Kom raskt i gang. Les den kostnadsfrie Packt-e-boken Prinsipper for datavitenskap, en nybegynners guide til statistiske teknikker og teori. Du lærer det grunnleggende om statistisk analyse og maskinlæring, nøkkeltermer og datavitenskapsprosesser.
- Bygg maskinlæringsferdighetene dine med Azure, Microsofts skyplattform. Utforsk Azure-maskinlæring for dataforskerressurser, inkludert gratis opplæringsvideoer, eksempler på løsningsarkitekturer og kundehistorier.
- Oppnå maskinlæringsekspertise på Azure gratis på bare fire uker. Bruk en time hver dag for å lære om hvordan du skaper innovative løsninger på komplekse problemer. Du lærer det grunnleggende hele veien til skalering av maskinlæringsprosjektene ved hjelp av de nyeste verktøyene og rammeverkene. Det egenstyrte Maskinlæreprogrammet for null til helt forbereder deg også på Azure Data Scientist Associate-sertifikatet.
- Få omfattende opplæring. Ta Læreprogrammet for Microsoft-dataforsker og velg blant en rekke egenstyrte og instruktørledede kurs. Lær hvordan du oppretter maskinlæringsmodeller, bruker visuelle verktøy, kjører arbeidsbelastninger for datavitenskap i skyen og bygger programmer som støtter naturlig språkbehandling.
Dataforskersertifiseringer
Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine innen datavitenskap og få fart på karrieren din. Det er stor etterspørsel etter Microsoft-sertifiserte fagpersoner, og det finnes ledige jobber for Azure-dataforskere akkurat nå. Utforsk dataforskersertifiseringer som er mest etterspurt av arbeidsgivere:
- Microsoft-sertifisert: Azure Data Scientist Associate. Bruk kunnskapen din om datavitenskap og maskinlæring til å implementere og kjøre arbeidsbelastninger for maskinlæring på Azure ved hjelp av Azure Machine Learning Service.
- Microsoft-sertifisert: Spesialitet for kundedataplattform. Implementer løsninger som gir innsikt i kundeprofiler og sporer engasjementsaktiviteter for å bidra til å forbedre kundeopplevelser og øke kundebevaring.
Forskjeller på dataanalytikere og dataforskere
I likhet med dataforskere arbeider dataanalytikere med store datasett for å avdekke trender innen data. Dataforskere er imidlertid vanligvis mer tekniske teammedlemmer med mer ekspertise og ansvar, for eksempel initiering og ledende datavitenskapsprosjekter, bygging og opplæring av maskinlæringsmodeller og presentasjon av resultatene til ledere og ved konferanser. Noen dataforskere utfører alle disse oppgavene, og andre fokuserer på bestemte oppgaver, for eksempel opplæringsalgoritmer eller bygningsmodeller. Mange dataforskere begynte karrieren sin som dataanalytikere, og dataanalytikere kan forfremmes til dataforskerstillinger i løpet av noen få år.
Dataanalytiker kontra dataforsker
Dataanalytiker | Dataforsker | |
---|---|---|
Rolle | Statistisk dataanalyse | Utvikle løsninger på komplekse forretningsbehov ved hjelp av stordata |
Vanlige verktøy | Microsoft Excel, SQL, Tableau, Power BI | SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks |
Analyse av datatyper | Strukturerte data | Strukturerte og ustrukturerte data |
Oppgaver og forpliktelser |
|
|
Tilleggsressurser
Tilleggsressurser
Vanlige spørsmål om datavitenskap
-
En dataforsker er ansvarlig for å utvinning av stordata for å trekke ut verdifull informasjon. Organisasjoner bruker denne informasjonen til å forbedre hvordan de tar beslutninger, løser problemer og optimaliserer driften.
-
Datavitenskap er den vitenskapelige studien av data for å få kunnskap. Den kombinerer en rekke vitenskapelige disipliner for å trekke ut kunnskap fra massive datasett for å bidra til å informere om beslutninger og prediksjoner.
-
Dataforskere leder forskningsprosjekter for å trekke ut verdifull informasjon og anvendelig innsikt fra stordata. Dette inkluderer å definere problemet som skal løses, skrive spørringer for å hente riktige data fra databaser, rydde opp og sortere dataene, bygge og lære opp maskinlæringsmodeller og bruke datavisualiseringsteknikker for effektiv kommunikasjon av resultatene til interessenter.
-
Selv om dokumentasjonen for datavitenskap varierer etter prosjekt og bransje, omfatter den vanligvis prosjektplaner, brukerhistorier, modelldokumentasjon og dokumentasjon for støttesystemer, for eksempel brukerveiledninger.
-
Noen IT-eksperter lærer datavitenskap ved å ta en mastergrad eller få en sertifisering innen datavitenskap, eller å ta fordypningskurs og nettbaserte kurs. Sertifiseringer er en flott måte å demonstrere kvalifikasjonene dine innen datavitenskap og få fart på karrieren din. Det er stor etterspørsel etter Microsoft-sertifiserte fagpersoner, og det finnes ledige jobber for Azure-dataforskere akkurat nå.
Utforsk opplæringsressurser og sertifiseringer for datavitenskap
-
Både dataanalytikere og dataforskere arbeider med store datasett for å avdekke trender i data. Dataforskere har imidlertid vanligvis mer teknisk ekspertise og ansvar når det gjelder å iverksette forskningsprosjektene sine. En dataanalytiker kan for eksempel bli bedt om å fullføre statistisk dataanalyse, mens en dataforsker kan bli bedt om å utvikle løsninger på komplekse forretningsbehov ved å utvinne stordata.
Se en sammenligning av ansvaret som en dataforsker og en dataanalytiker har
-
Datavitenskapsprosjekter varierer etter bransje- og organisasjonsbehov. I en forretningssammenheng kan for eksempel en dataforsker lede et forskningsprosjekt som handler om hvordan man kan forbedre kundeserviceopplevelsene. Dataene som kreves, inkluderer ikke bare strukturerte data som måledata for nettsteder og transaksjoner, men også ustrukturerte data som brukergjennomganger og notater fra kundeserviceteam. Den detaljerte analysen av alle disse ulike datakildene vil gi innsikt som kan bidra til å informere om anbefalte endringer i gjeldende prosedyrer.
-
I forretningsvirksomhet er det vanligste målet med datavitenskap å forbedre hvordan organisasjoner fungerer. Innsikten fra å analysere en mengde organisasjonsdata kan sammen bidra til å løse eksisterende utfordringer eller generere ideer til nye måter å drive virksomhet på.
-
Ja, selv om dataforskere kanskje ikke trenger samme kompetanse med koding som programmerere. Dataforskere kan bruke programmeringsspråk som Julia, R eller Python til å skrive spørringer. Python er også populært fordi det er relativt enkelt å lære og bruke.
-
Krav til datavitenskapsroller kan variere, men de inkluderer vanligvis minst ett av følgende:
- En grad i informasjonsteknologi eller datavitenskap.
- Fullføring av et datavitenskapelig fordypningskurs eller nettkurs.
- En datavitenskapelig mastergrad eller sertifisering.
Microsoft tilbyr en rekke opplæringsressurser og læreprogrammer for å komme i gang med å bli en dataforsker.
Kom i gang med en gratis Azure-konto
Få populære Azure-tjenester gratis i 12 måneder, mer enn 55 tjenester gratis alltid og USD 200 i kreditt som du kan bruke i løpet av de første 30 dagene.
Kontakt en spesialist innen Azure kunstig intelligens
Få råd om hvordan du kommer i gang med Azure kunstig intelligens. Still spørsmål, lær om priser og anbefalte fremgangsmåter og få hjelp til å utforme en løsning som dekker dine behov.