Vad är data science?
Data science är ett tvärvetenskapligt område där man studerar data i syfte att utvinna användbar kunskap.
Vad är en dataforskare?
En dataforskare leder forskningsprojekt för att utvinna värdefull information från stordata och är expert på teknik, matematik, business och kommunikation. Organisationer använder den här informationen för att fatta bättre beslut, lösa komplexa problem och förbättra sin verksamhet. Genom att hitta användbara insikter som är dolda i stora datamängder kan dataforskare avsevärt förbättra företagets förmåga att uppnå sina mål. Därför är det stor efterfrågan på dataforskare, och de ses till och med som "rockstjärnor" i affärsvärlden.
Definition av data science
Data science är vetenskapliga studier av data för att utvinna kunskap. I det här området kombineras flera vetenskapliga discipliner för att utvinna kunskap ur enorma datamängder i syfte att fatta välgrundade beslut och göra förutsägelser. Dataforskare, dataanalytiker, dataarkitekter, dataingenjörer, statistiker, databasadministratörer och affärsanalytiker arbetar samtliga inom data science-området.
Behovet av data science växer snabbt i takt med att mängden data ökar exponentiellt och företag blir allt mer beroende av analyser för att öka intäkterna och innovationen. När exempelvis affärsinteraktioner blir mer digitala skapas mer data, vilket ger nya möjligheter att härleda insikter om hur du kan anpassa upplevelser, förbättra servicen och kundnöjdheten, utveckla nya och förbättrade produkter och öka försäljningen. Dessutom har data science potential att hjälpa till att lösa några av världens svåraste utmaningar.
Vad gör en dataforskare?
En dataforskare samlar in, analyserar och tolkar stordata för att upptäcka mönster och insikter, göra förutsägelser och skapa handlingsbara planer. Stordata kan definieras som datamängder som har större variation, volym och hastighet än tidigare metoder för datahantering kunde hantera. Dataforskare arbetar med många typer av stordata, bland annat:
- Strukturerade data, som vanligtvis är ordnade i rader och kolumner och som innehåller ord och siffror som namn, datum och kreditkortsinformation. En dataforskare som arbetar inom elbranschen kan till exempel analysera tabeller med elproduktions- och användningsdata för att minska kostnaderna och identifiera mönster som kan göra att utrustningen slutar fungera.
- Ostrukturerade data, som inte är organiserade och innefattar text i dokumentfiler, sociala medier och mobildata, webbplatsinnehåll och videor. En dataforskare inom detaljhandeln kan till exempel ta reda på hur kundupplevelsen kan förbättras genom att analysera ostrukturerade kundtjänstanteckningar, e-postmeddelanden, undersökningar och inlägg i sociala medier.
Dessutom kan datamängdens egenskaper beskrivas som kvantitativa, strukturerade numeriska data eller kvalitativa eller kategoriska data, som inte representeras genom numeriska värden och kan grupperas baserat på kategorier. Det är viktigt för dataforskare att känna till vilken typ av data de arbetar med eftersom det direkt påverkar vilken typ av analys de ska utföra och vilka typer av diagram de kan använda för att visualisera data.
För att kunna utvinna kunskap från alla dessa typer av data behöver dataforskarna utnyttja sina kunskaper i:
- Datorprogrammering. Dataexperter skriver frågor med hjälp av språk som Julia, R eller Python för att hämta data från företagets databas. Python är det språk som många dataexperter väljer eftersom det är enkelt att lära sig och använda, även för personer utan erfarenhet av programmering, och erbjuder fördefinierade data science-moduler för dataanalys.
- Matematik, statistik och sannolikhet. Dataforskare använder sig av dessa kunskaper för att analysera data, testa hypoteser och skapa maskininlärningsmodeller, dvs. filer som dataforskare tränar för att identifiera vissa typer av mönster. Dataforskare använder tränade maskininlärningsmodeller för att identifiera relationer i data, göra förutsägelser om data och hitta lösningar på problem. I stället för att skapa och träna modeller från grunden kan dataforskare också dra nytta av automatiserad maskininlärning för att få åtkomst till produktionsklara maskininlärningsmodeller.
- Ämneskunskaper. För att kunna översätta data till relevanta och meningsfulla insikter som driver affärsresultat behöver dataforskare också ämneskunskaper, dvs. kunskaper om branschen och företaget de jobbar på. Här är några exempel på hur dataforskare skulle kunna utnyttja sina ämneskunskaper för att lösa branschspecifika problem.
Typer av dataforskningsprojekt
Bransch | Typer av dataforskningsprojekt |
---|---|
Business | Ny produktutveckling och produktförbättringar Hantering av leveranskedja och lager Förbättringar av kundtjänst Produktrekommendationer till näthandelskunder |
Underhållning | Förståelse av mönster i användning av medieinnehåll Innehållsutveckling baserat på marknadsdata Resultatmätning för innehåll Anpassade rekommendationer baserat på användarinställningar |
Bank och finans | Förhindra bedrägerier och andra säkerhetsöverträdelser Riskhantering för investeringsportföljer Virtuella assistenter som hjälper kunder med frågor |
Myndigheter | Policybeslut Övervakning av nöjdhet Identifiering av bedrägerier, till exempel anspråk på social funktionsnedsättning |
Hälso- och sjukvård | Bevisbaserad läkemedelsterapi och kostnadseffektivitet för nya läkemedel Spårning i realtid av sjukdomsutbrott Bärbara trackers för att förbättra patientvården |
Telekommunikation | Tjänstförbättringar baserat på användarinställningar och platser Minimering av antal avbrutna samtal och andra tjänstproblem |
Samhällsservice | Analys med smarta mätare för att förbättra användningen av samhällsservice och kundnöjdheten Bättre hantering av tillgångar och personal |
Det finns en annan färdighet som dataforskare behöver. Det är en viktig del av jobbet att kunna förmedla resultaten av analyserna till chefer och andra intressenter på ett effektivt sätt. Dataforskare måste se till att resultaten lätta att förstå för en publik som saknar tekniska kunskaper, så att de i sin tur kan använda insikterna till att fatta välgrundade beslut. Därför måste dataforskare vara experter på:
- Kommunikation, tala inför publik och datavisualisering. Bra dataforskare är bra på att kommunicera muntligt, inklusive förmedla budskap och tala inför publik. Inom data science säger en bild verkligen mer än tusen ord. Genom att presentera data science-resultat med hjälp av grafer och diagram kan åhörarna snabbt förstå data på bara fem sekunder eller mindre. Därför tar framgångsrika dataforskare datavisualiseringar på lika stort allvar som sina analyser.
Data science-processer
Dataforskare följer en liknande process för att genomföra sina projekt:
1. Definiera affärsproblemet
Dataforskaren samarbetar med intressenter för att tydligt definiera problemet som ska lösas eller frågan som ska besvaras, samt projektets mål och lösningskrav.
2. Definiera analysmetoden
Baserat på affärsproblemet bestämmer dataforskaren vilken analysmetod som ska användas:
- Beskrivande analys för att få mer information om det aktuella läget.
- Diagnostisk analys för att förstå vad som händer och varför.
- Prediktiv analys för att förutsäga vad som kommer att hända.
- Preskriptiv analys för att förstå hur problemet ska lösas.
3. Hämta data
Dataforskare identifierar och hämtar de data som behövs för att uppnå önskat resultat. Det kan handla om att köra frågor mot databaser, extrahera information från webbplatser (webbskrapning) eller hämta data från filer. Data kan vara internt tillgängliga eller så kan teamet behöva köpa data. I vissa fall kan organisationer behöva samla in nya data för att kunna genomföra ett projekt.
4. Rensa data
Vanligtvis är det här steget det mest tidskrävande. För att skapa datamängden för modellering konverterar dataforskaren alla data till samma format, ordnar data, tar bort det som inte behövs och ersätter eventuella saknade data.
5. Utforska data
När data har rensats utforskar dataforskaren data och använder statistiska analystekniker för att identifiera relationer mellan datafunktioner och de statistiska relationerna mellan dem och de värden som de förutsäger (kallas en etikett). Den förutsagda etiketten kan vara ett kvantitativt värde, till exempel vad det ekonomiska värdet för en viss sak kommer att vara i framtiden, eller hur länge ett flyg är försenat i minuter.
I utforskningen och förberedelserna ingår vanligtvis en hel del interaktiv dataanalys och visualisering, vanligtvis med hjälp av språk som Python och R i interaktiva verktyg och miljöer som är särskilt utformade för den här uppgiften. Skripten som används för att utforska data finns vanligtvis i specialiserade miljöer som Jupyter Notebooks. Med de här verktygen kan dataforskare utforska data programmatiskt och dokumentera och dela de insikter de hittar.
6. Modellera data
Dataforskare skapar och tränar preskriptiva eller beskrivande modeller och testar och utvärderar sedan modellen för att se till att den besvarar den aktuella frågan eller åtgärdar affärsproblemet. I sin enklaste form är en modell lite kod som tar indata och genererar utdata. Att skapa en maskininlärningsmodell innebär att välja en algoritm, förse den med data och justera hyperparametrar. Hyperparametrar är justerbara parametrar som gör att dataforskare kan styra modellträningsprocessen. Med neurala nätverk bestämmer dataforskare till exempel antalet dolda lager och antalet noder i varje lager. Justering av hyperparametrar, även kallat optimering av hyperparametrar, är processen att hitta den hyperparameterkonfiguration som ger bästa prestanda.
En vanlig fråga är "Vilken maskininlärningsalgoritm ska jag använda?" En maskininlärningsalgoritm omvandlar en datamängd till en modell. Vilken algoritm som dataforskare väljer beror främst på två olika aspekter av data science-scenariot:
- Vilken affärsfråga vill dataexperten besvara med lärdomar från tidigare data?
- Vilka är kraven för data science-scenariot, inklusive noggrannhet, träningstid, linjäritet, antal parametrar och antal funktioner?
För att besvara dessa frågor tillhandahåller Azure Machine Learning en omfattande portfölj med algoritmer, till exempel beslutsskog med två klasser, rekommendationssystem, regression med neuralt nätverk, neuralt nätverk med flera klasser och K-Means-klustring. Varje algoritm är utformad för att hantera en viss typ av maskininlärningsproblem. Dataforskare kan också använda översiktsbladet för Azure Machine Learning-algoritmer till att välja rätt algoritm för att besvara den aktuella affärsfrågan.
7. Distribuera modellen
Dataforskaren levererar den slutliga modellen med dokumentation och distribuerar den nya datamängden till produktion efter testning, så att den kan spela en aktiv roll i företaget. Förutsägelser från en distribuerad modell kan användas för att fatta affärsbeslut.
8. Visualisera och förmedla resultat
Visualiseringsverktyg som Microsoft Power BI, Tableau, Apache Superset och Metabase gör det enkelt för dataforskare att utforska data och generera snygga visualiseringar som visar resultat på ett sätt som är enkelt att förstå även för målgrupper som saknar tekniska kunskaper.
Dataforskare kan också använda webbaserade notebooks för data science, till exempel Zeppelin Notebooks, under stora delar av processen för datainsamling, identifiering, analys, visualisering och samarbete.
Data science-metoder
Dataforskare använder statistiska metoder som hypotesprövning, faktoranalys, regressionsanalys och klustring för att utvinna statistiskt korrekta insikter.
Data science-dokumentation
Även om data science-dokumentationen varierar beroende på projekt och bransch innehåller den vanligtvis information om var data kommer från och hur de har ändrats. Det gör att andra i datateamet kan använda data på ett effektivt sätt. Dokumentationen hjälper till exempel affärsanalytiker att använda visualiseringsverktyg för att tolka datamängden.
Typer av data science-dokumentation:
- Projektplaner för att definiera projektets affärsmål, utvärderingsmått, resurser, tidslinje och budget.
- Användarberättelser för att generera idéer för data science-projekt. Dataforskare skriver berättelsen ur intressenternas perspektiv och beskriver vad intressenten vill uppnå och orsaken till att intressenten vill genomföra projektet.
- Modelldokumentation för att dokumentera datamängden, experimentets design och algoritmerna.
- Dokumentation om supportsystem, till exempel användarhandböcker, infrastrukturdokumentation för systemunderhåll och koddokumentation.
Så här blir du dataforskare
Det finns flera sätt att bli dataforskare. Vanligtvis krävs en examen i informationsteknik eller datavetenskap. Vissa IT-proffs lär sig data science genom att gå fördjupningskurser och onlinekurser medan andra tar en magisterexamen eller certifiering i data science.
Om du vill bli dataforskare kan du se följande Microsoft-utbildningsresurser:
- Kom i gång snabbt. Läs den kostnadsfria e-boken Principles of Data Science, A beginner's guide to statistical techniques and theory från Packt. Du lär dig grunderna i statistisk analys och maskininlärning, viktiga begrepp och data science-processer.
- Utveckla dina kunskaper i maskininlärning med Azure, Microsofts molnplattform. Utforska resurser för Azure Machine Learning för dataforskare, till exempel kostnadsfria utbildningsvideor, exempel på lösningsarkitekturer och kundberättelser.
- Bli expert på maskininlärning i Azure kostnadsfritt på bara 4 veckor. Ägna en timme om dagen åt att lära dig hur du skapar innovativa lösningar för komplexa problem. Du lär dig allt från grunderna till hur du skalar dina maskininlärningsprojekt med de senaste verktygen och ramverken. Den här utbildningsvägen från nybörjare till expert på maskininlärning som du läser i egen takt förbereder dig även för Azure Data Scientist Associate-certifikatet.
- Få omfattande utbildning. Gå utbildningsvägen för Microsoft-dataforskare och välj bland en rad kurser. Det finns både kurser du läser i egen takt och lärarledda kurser. Lär dig hur du skapar maskininlärningsmodeller, använder visuella verktyg, kör data science-arbetsbelastningar i molnet och skapar program som stöder språkteknologi.
Certifieringar för dataforskare
Certifieringar är ett bra sätt att styrka dina data science-kunskaper och snabbt komma igång med karriären. Det finns en stor efterfrågan på Microsoft-certifierade experter och det finns lediga jobb för Azure-dataforskare. Utforska de certifieringar för dataforskare som är mest efterfrågade av arbetsgivare:
- Microsoft-certifierad: Azure Data Scientist Associate. Använd dina kunskaper om data science och maskininlärning för att implementera och köra maskininlärningsarbetsbelastningar i Azure med hjälp av Azure Machine Learning Service.
- Microsoft-certifierad: Customer Data Platform Specialty. Implementera lösningar som ger insyn i kundprofiler och spårar engagemangsaktiviteter för att förbättra kundupplevelsen och öka kundbevarandet.
Skillnader mellan dataanalytiker och dataforskare
Precis som dataforskare arbetar dataanalytiker med stora datamängder för att upptäcka trender i data. Dataforskare har vanligtvis större tekniska kunskaper och ansvar. De kan till exempel starta och leda data science-projekt, skapa och träna maskininlärningsmodeller och presentera resultaten för chefer och på olika konferenser. Vissa dataforskare utför alla dessa uppgifter och andra fokuserar på vissa specifika uppgifter, till exempel att träna algoritmer eller skapa modeller. Många dataforskare börjar karriären som dataanalytiker och befordras sedan till dataforskare efter några år.
Dataforskare jämfört med dataanalytiker
Dataanalytiker | Dataforskare | |
---|---|---|
Roll | Statistisk dataanalys | Utveckla lösningar för komplexa affärsbehov med hjälp av stordata |
Vanliga verktyg | Microsoft Excel, SQL, Tableau, Power BI | SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks |
Analys av datatyper | Strukturerade data | Strukturerade och ostrukturerade data |
Uppgifter och ansvarsområden |
|
|
Ytterligare resurser
Ytterligare resurser
Vanliga frågor och svar om data science
-
En dataforskare ansvarar för utvinna värdefull information från stordata. Organisationer använder den här informationen för att förbättra beslutsfattandet, lösa problem och förbättra verksamheten.
-
Data science är studier av data i syfte att utvinna kunskap. Flera olika vetenskapliga discipliner kombineras för att extrahera kunskap från enorma datamängder som möjliggör mer välgrundade beslut och bättre förutsägelser.
-
Dataforskare leder forskningsprojekt för att extrahera värdefull information och användbara insikter från stordata. I arbetet ingår att definiera problemet som ska lösas, skriva frågor för att hämta rätt data från databaser, rensa och sortera data, skapa och träna maskininlärningsmodeller och använda datavisualiseringstekniker för att effektivt förmedla resultaten till intressenter.
-
Även om data science-dokumentationen varierar beroende på projekt och bransch innehåller den vanligtvis projektplaner, användarberättelser, modelldokumentation och dokumentation om stödsystem (till exempel användarhandböcker).
-
Vissa IT-proffs lär sig data science genom att ta en magisterexamen eller certifiering i data science eller delta i fördjupningskurser och onlinekurser. Certifieringar är ett bra sätt att styrka dina data science-kunskaper och snabbt komma igång med karriären. Det finns en stor efterfrågan på Microsoft-certifierade experter och det finns lediga jobb för Azure-dataforskare.
Utforska utbildningsresurser och certifieringar för data science
-
Både dataforskare och dataanalytiker arbetar med stora datamängder för att upptäcka trender i data. Dataforskare har vanligtvis större tekniska kunskaper och ansvar när det gäller att starta forskningsprojekt. Till exempel kan en dataanalytiker bli ombedd att utföra statistiska dataanalyser medan en dataforskare kan bli ombedd att utveckla lösningar på komplexa affärsbehov genom att utvinna kunskap från stordata.
Se en jämförelse mellan ansvarsområden för dataforskare och dataanalytiker
-
Data science-projekt varierar beroende på olika bransch- och organisationsbehov. I en affärsmiljö kan till exempel en dataforskare leda ett forskningsprojekt för att ta reda på hur kundtjänstupplevelsen kan förbättras. De data som krävs är inte bara strukturerade data som webbplats- och transaktionsmått utan även ostrukturerade data som användarrecensioner och anteckningar från kundtjänstteam. Den detaljerade analysen av alla dessa olika datakällor ger insikter som kan bidra till att skapa rekommendationer om ändringar i aktuella procedurer.
-
I företag används data science oftast till att förbättra verksamheten. Genom att analysera en mängd organisationsdata kan man få insikter som bidrar till att lösa befintliga utmaningar eller komma på nya sätt att göra affärer.
-
Ja, även om dataforskare inte behöver ha lika goda programmeringskunskaper som programmerare. Dataforskare kan använda programmeringsspråk som Julia, R eller Python för att skriva frågor. Python är också populärt eftersom det är relativt enkelt att lära sig och använda.
-
Vad som krävs för att bli dataforskare kan variera, men vanligtvis krävs minst ett av följande alternativ:
- En examen i informationsteknik eller datavetenskap.
- En genomgången fördjupningskurs eller onlinekurs i data science.
- En magisterexamen eller certifiering i data science.
Microsoft erbjuder en rad olika utbildningsresurser och utbildningsvägar för att hjälpa dig att komma igång med din karriär som dataforskare.
Kom igång med ett kostnadsfritt Azure-konto
Använd populära Azure-tjänster utan kostnad i 12 månader, och drygt 55 tjänster som alltid är kostnadsfria, och få en kredit på 200 USD som du kan använda de första 30 dagarna.
Kontakta en Azure AI-säljspecialist
Få råd som hjälper dig igång med Azure AI. Ställ frågor, lär dig mer om priser och regelverk samt få hjälp med att utforma en lösning som uppfyller dina behov.