Trace Id is missing
Overslaan naar hoofdinhoud
Azure

Wat is datawetenschap?

Datawetenschap is het multidisciplinair wetenschappelijk onderzoeken van gegevens met als doel belangrijke gegevens en informatie te extraheren voor bruikbare inzichten.

Wat is een datawetenschapper?

Een datawetenschapper leidt onderzoeksprojecten om waardevolle informatie uit big data te extraheren en is deskundig op het gebied van technologie, wiskunde, zaken en communicatie. Organisaties gebruiken deze informatie om betere beslissingen te nemen, complexe problemen op te lossen en hun activiteiten te verbeteren. Door bruikbare inzichten te onthullen die verborgen liggen in grote gegevenssets, kan een gegevenswetenschapper het vermogen van zijn of haar bedrijf om zijn doelen te bereiken aanzienlijk verbeteren. Daarom is er grote vraag naar gegevenswetenschappers en worden ze in het bedrijfsleven zelfs beschouwd als "rocksterren".

Datawetenschap gedefinieerd

Datawetenschap is het wetenschappelijk onderzoeken van gegevens om kennis op te doen. In dit gebied worden meerdere disciplines gecombineerd om kennis uit enorme gegevenssets te extraheren met als doel weloverwogen beslissingen te nemen en voorspellingen te doen. Datawetenschappers, gegevensanalisten, gegevensarchitecten, data-engineers, statistici, databasebeheerders en bedrijfsanalisten werken allemaal op het gebied van datawetenschap.

De behoefte aan datawetenschap groeit snel naarmate de hoeveelheid gegevens exponentieel toeneemt en bedrijven steeds meer afhankelijk zijn van analyses om de omzet en innovatie te stimuleren. Naarmate bedrijfsinteracties bijvoorbeeld digitaler worden, worden er meer gegevens gemaakt, wat nieuwe mogelijkheden biedt om inzicht te krijgen in hoe je ervaringen beter kunt personaliseren, de service en klanttevredenheid kunt verbeteren, nieuwe en verbeterde producten kunt ontwikkelen en de verkoop kunt verhogen. Daarnaast heeft datawetenschap, zowel in het bedrijfsleven als daarbuiten, het potentieel om enkele van 's werelds grootste uitdagingen te helpen oplossen.

Wat doet een datawetenschapper?

Een datawetenschapper verzamelt, analyseert en interpreteert big data om patronen en inzichten te ontdekken, voorspellingen te doen en bruikbare plannen te maken. Big data-analyseBig data kunnen worden gedefinieerd als gegevenssets met meer variatie, volume en snelheid dan eerdere methoden van gegevensbeheer konden verwerken. Datawetenschappers werken met veel soorten big data, waaronder:

  • Gestructureerde gegevens, die doorgaans in rijen en kolommen zijn georganiseerd en woorden en cijfers bevatten, zoals namen, datums en creditcardgegevens. Een datawetenschapper in de nutssector kan bijvoorbeeld tabellen met gegevens over energiegeneratie en -gebruik analyseren om de kosten te helpen verlagen en patronen te detecteren die ertoe kunnen leiden dat apparatuur uitvalt.
  • Ongestructureerde gegevens, die ongeorganiseerd zijn en tekst in documentbestanden, sociale media en mobiele gegevens, website-inhoud en video's bevatten. Een datawetenschapper in de retailbranche kan bijvoorbeeld een vraag over het verbeteren van de klantervaring beantwoorden door ongestructureerde callcenternotities, e-mails, enquêtes en posts op sociale media te analyseren.

Daarnaast kunnen de kenmerken van de gegevensset worden beschreven als kwantitatieve, gestructureerde numerieke gegevens of kwalitatieve of categorische gegevens, die niet worden weergegeven door numerieke waarden en kunnen worden gegroepeerd op basis van categorieën. Het is belangrijk dat datawetenschappers weten met welk type gegevens ze werken, omdat dit rechtstreeks van invloed is op het type analyses dat ze uitvoeren en de typen grafieken die ze kunnen gebruiken om de gegevens te visualiseren.

Om kennis op te doen van al deze gegevenstypen, gebruiken datawetenschappers hun vaardigheden in:

  • Computerprogrammering. Datawetenschappers schrijven query's met behulp van talen zoals Julia, R of Python om gegevens op te halen uit de database van hun bedrijf. Python is de voorkeurstaal voor veel datawetenschappers omdat het eenvoudig te leren en te gebruiken is, zelfs voor mensen zonder ervaring in coderen, en vooraf samengestelde datawetenschapsmodules voor gegevensanalyse biedt.
  • Wiskunde, statistiek en waarschijnlijkheid. Datawetenschappers gebruiken deze vaardigheden om gegevens te analyseren, hypothesen te testen en machine learning-modellen te bouwen – bestanden die datawetenschappers trainen om bepaalde soorten patronen te herkennen. Datawetenschappers gebruiken getrainde machine learning-modellen om de relaties in gegevens te ontdekken, voorspellingen over gegevens te doen en oplossingen voor problemen te vinden. In plaats van volledig nieuwe modellen te bouwen en te trainen, kunnen datawetenschappers ook profiteren van geautomatiseerde machine learning om toegang te krijgen tot productieklare machine learning-modellen.
  • Domeinkennis. Om gegevens om te zetten in relevante en betekenisvolle inzichten die bedrijfsresultaten stimuleren, hebben datawetenschappers ook domeinkennis nodig – begrip van de branche en het bedrijf waar ze werken. Hier zijn enkele voorbeelden van hoe datawetenschappers hun domeinkennis zouden toepassen om branchespecifieke problemen op te lossen.

Typen datawetenschapsprojecten

Typen datawetenschapsprojecten
Branche Typen datawetenschapsprojecten
Bedrijf Nieuwe productontwikkeling en productverbeteringen
Toeleveringsketen- en voorraadbeheer
Verbeteringen in de klantenservice
Productaanbevelingen voor e-commerceklanten
Entertainment Begrip van gebruikspatronen in media-inhoud
Inhoudsontwikkeling op basis van doelmarktgegevens
Meting van inhoudsprestaties
Aangepaste aanbevelingen op basis van gebruikersvoorkeuren
Financiën en bankwezen Preventie van fraude en andere beveiligingsschendingen
Risicobeheer van investeringsportfolio's
Virtuele assistenten om klanten te helpen met vragen
Overheid Beleidsbeslissingen
Controle van kiezerstevredenheid
Fraudedetectie, zoals gehandicaptenuitkeringen
Gezond­heids­zorg Op bewijs gebaseerde medicatietherapie en kosteneffectiviteit van nieuwe medicatie
Realtime tracering van ziekte-uitbraken
Draagbare trackers om de patiëntenzorg te verbeteren
Telecommunicatie Serviceverbeteringen op basis van gebruikersvoorkeuren en locaties
Minimalisering van verbroken oproepen en andere serviceproblemen
Nutsvoorzieningen Analyse van slimme meters om het gebruik van nutsvoorzieningen en klanttevredenheid te verbeteren
Verbeterd asset- en personeelsbeheer

Er is nog een vaardigheid die essentieel is voor de vraag "Wat doet een datawetenschapper?" Het effectief communiceren van de resultaten van hun analyses aan managers, leidinggevenden en andere belanghebbenden is een van de belangrijkste onderdelen van hun werk. Datawetenschappers moeten hun bevindingen gemakkelijk te begrijpen maken voor een niet-technisch publiek, zodat ze de inzichten kunnen gebruiken om weloverwogen beslissingen te nemen. Daarom moeten datawetenschappers zijn getraind in:

  • Communicatie, spreken in het openbaar, en gegevensvisualisatie. Goede datawetenschappers beschikken over sterke communicatievaardigheden, waaronder storytelling en spreken in het openbaar. Op het gebied van datawetenschap zegt één beeld echt meer dan duizend woorden. Door datawetenschapsbevindingen te presenteren met behulp van grafieken en diagrammen, kan het publiek de gegevens snel begrijpen, binnen slechts vijf seconden. Daarom nemen succesvolle datawetenschappers hun gegevensvisualisaties net zo serieus als hun analyses.

Datawetenschapsprocessen

Datawetenschappers volgen een vergelijkbaar proces om hun projecten te voltooien:

1. Het bedrijfsprobleem definiëren

De datawetenschapper werkt samen met belanghebbenden om het probleem dat ze willen oplossen of de vraag die ze moeten beantwoorden duidelijk te definiëren, samen met de doelstellingen en oplossingsvereisten van het project.

2. De analysebenadering definiëren
Op basis van het bedrijfsprobleem bepaalt de datawetenschapper welke analysebenadering moet worden gevolgd:

  • Beschrijvend voor meer informatie over de huidige status.
  • Diagnostisch om te begrijpen wat er gebeurt en waarom.
  • Voorspellend om te voorspellen wat er zal gebeuren.
  • Prescriptief om te begrijpen hoe je het probleem kunt oplossen.

3. De gegevens ophalen

De datawetenschapper identificeert en verkrijgt de gegevens die nodig zijn om het gewenste resultaat te bereiken. Dit kan het uitvoeren van query's op databases, het extraheren van informatie van websites (web scraping) of het ophalen van gegevens uit bestanden omvatten. De gegevens zijn mogelijk intern beschikbaar of het team moet de gegevens mogelijk aanschaffen. In sommige gevallen moeten organisaties mogelijk nieuwe gegevens verzamelen om een project te kunnen uitvoeren.

4. De gegevens opschonen, ook wel 'data scrubbing' genoemd

Normaal gesproken is deze stap het meest tijdrovend. Om de gegevensset voor modellering te maken, converteert de datawetenschapper alle gegevens naar dezelfde indeling, organiseert de gegevens, verwijdert wat niet nodig is en vervangt eventuele ontbrekende gegevens.

5. De gegevens verkennen

Zodra de gegevens zijn opgeschoond, verkent een datawetenschapper de gegevens en past statistische analytische technieken toe om relaties tussen gegevensfuncties, de statistische relaties tussen deze functies en de waarden die ze voorspellen (ook wel een label genoemd) te onthullen. Het voorspelde label kan een kwantitatieve waarde zijn, zoals de financiële waarde van iets in de toekomst of de duur van een vluchtvertraging in minuten.

Bij verkenning en voorbereiding wordt doorgaans veel interactieve gegevensanalyse en -visualisatie gebruikt, meestal met behulp van talen zoals Python en R in interactieve tools en omgevingen die speciaal voor deze taak zijn ontworpen. De scripts die worden gebruikt om de gegevens te verkennen, worden meestal gehost in gespecialiseerde omgevingen zoals Jupyter Notebooks. Met deze tools kunnen datawetenschappers de gegevens programmatisch verkennen terwijl ze de gevonden inzichten documenteren en delen.

6. De gegevens modelleren

De datawetenschapper bouwt en traint prescriptieve of beschrijvende modellen en test en evalueert het model vervolgens om er zeker van te zijn dat het de vraag beantwoordt of het bedrijfsprobleem oplost. Op zijn eenvoudigst is een model een stukje code dat invoer accepteert en uitvoer produceert. Het maken van een machine learning-model omvat het selecteren van een algoritme, het leveren van gegevens en het afstemmen van hyperparameters. Hyperparameters zijn aanpasbare parameters waarmee datawetenschappers het modeltrainingsproces kunnen beheren. Met neurale netwerken bepaalt de datawetenschapper bijvoorbeeld het aantal verborgen lagen en het aantal knooppunten in elke laag. Hyperparameterafstemming van een modelHyperparameterafstemming, ook wel hyperparameteroptimalisatie genoemd, is het proces van het vinden van de configuratie van hyperparameters die leiden tot de beste prestaties.

Een veelgestelde vraag is "Welk machine learning-algoritme moet ik gebruiken?" Met een machine learning-algoritme wordt een gegevensset omgezet in een model. Het algoritme dat de datawetenschapper selecteert, is voornamelijk afhankelijk van twee verschillende aspecten van het datawetenschapsscenario:

  • Wat is de bedrijfsvraag die de datawetenschapper wil beantwoorden door te leren van eerdere gegevens?
  • Wat zijn de vereisten van het datawetenschapsscenario, inclusief de nauwkeurigheid, trainingstijd, lineariteit, het aantal parameters en het aantal functies?

Om deze vragen te helpen beantwoorden, biedt Azure Machine Learning een uitgebreid portfolio met algoritmen, zoals component Beslissingsforest met meerdere klassenbeslissingsforest met meerdere klassen, aanbevelingssystemen, regressie neuraal netwerk, component Neuraal netwerk met meerdere klassenneuraal netwerk met meerdere klassen en K-Means-clustering. Elk algoritme is ontworpen om een ander type machine learning-probleem op te lossen. Daarnaast helpt de cheatsheet voor Azure Machine Learning-algoritmen datawetenschappers het juiste algoritme te kiezen om de bedrijfsvraag te beantwoorden.

7. Het model implementeren

De datawetenschapper levert het uiteindelijke model met documentatie en implementeert de nieuwe gegevensset na het testen in productie, zodat deze een actieve rol kan spelen in een bedrijf. Voorspellingen van een geïmplementeerd model kunnen worden gebruikt voor bedrijfsbeslissingen.

8. De resultaten visualiseren en communiceren

Met visualisatietools zoals Microsoft Power BI, Tableau, Apache Superset en Metabase kan de datawetenschapper de gegevens gemakkelijk verkennen en prachtige visualisaties genereren die de bevindingen zodanig laten zien dat een niet-technisch publiek ze eenvoudig kan begrijpen.

Datawetenschappers kunnen ook webgebaseerde datawetenschap-notebooks, zoals Zeppelin Notebooks, in vrijwel het hele proces gebruiken voor gegevensopname, ontdekking, analyse, visualisatie en samenwerking.

Datawetenschapsmethoden

Datawetenschappers gebruiken statistische methoden zoals hypothesetests, factoranalyse, regressieanalyse en clustering om statistisch waterdichte inzichten te krijgen.

Datawetenschapsdocumentatie

Hoewel datawetenschapsdocumentatie verschilt per project en branche, omvat het over het algemeen documentatie die laat zien waar de gegevens vandaan komen en hoe deze zijn gewijzigd. Dit helpt andere leden van het gegevensteam om de gegevens effectief te gebruiken. Dankzij documentatie kunnen bedrijfsanalisten bijvoorbeeld visualisatietools gebruiken om de gegevensset te interpreteren.

Typen datawetenschapsdocumentatie zijn onder meer:

  • Projectplannen om de bedrijfsdoelen, metrische evaluatiegegevens, resources, tijdlijn en budget van het project te definiëren.
  • Verhalen van datawetenschapsgebruikers om ideeën voor datawetenschapsprojecten te genereren. De datawetenschapper schrijft het verhaal vanuit het oogpunt van de belanghebbende, en beschrijft wat de belanghebbende wil bereiken en de reden waarom de belanghebbende het project aanvraagt.
  • Documentatie voor datawetenschapsmodellen om de gegevensset, het ontwerp van het experiment en de algoritmen te documenteren.
  • Documentatie voor ondersteunende systemen, waaronder gebruikershandleidingen, infrastructuurdocumentatie voor systeemonderhoud, en codedocumentatie.

Hoe je een datawetenschapper wordt

Er zijn meerdere trajecten om datawetenschapper te worden. Vereisten omvatten meestal een diploma in informatietechnologie of computerwetenschappen. Sommige IT-professionals leren datawetenschap echter door bootcamps en onlinecursussen te volgen, en anderen behalen een masterdiploma of certificering in datawetenschap.

Om te ontdekken hoe je een datawetenschapper kunt zijn, kun je gebruikmaken van deze Microsoft-trainingsbronnen die zijn ontworpen om je te helpen:

  • Ga snel aan de slag. Lees het gratis e-book van Packt, Principes van datawetenschap, Een handleiding voor beginners over statistische methoden en theorie. Je leert de basisbeginselen van statistische analyse en machine learning, belangrijke termen en datawetenschapsprocessen.
  • Ontwikkel je machine learning-vaardigheden met Azure, het Microsoft-cloudplatform. Verken informatiebronnen over Azure Machine Learning voor datawetenschappers, waaronder gratis trainingsvideo's, voorbeelden van oplossingsarchitecturen, en verhalen van klanten.
  • Word gratis een machine learning-expert op Azure, binnen slechts 4 weken. Neem een uur per dag de tijd om te leren hoe je innovatieve oplossingen voor complexe problemen kunt maken. Je leert de basisbeginselen, helemaal tot aan het schalen van je machine learning-projecten met behulp van de nieuwste tools en frameworks. Het leertraject Van zero tot hero in machine learning in eigen tempo bereidt je ook voor op het Azure Data Scientist Associate-certificaat.
  • Krijg uitgebreide training. Volg het leertraject Microsoft-datawetenschapper en kies uit een reeks cursussen in eigen tempo en onder leiding van een docent. Ontdek hoe je machine learning-modellen maakt, visuele tools gebruikt, datawetenschaps-workloads in de cloud uitvoert en toepassingen ontwikkelt die ondersteuning bieden voor natuurlijke taalverwerking.

Certificeringen voor datawetenschappers

Certificeringen zijn een goede manier om je kwalificaties in datawetenschap te demonstreren en je carrière een vliegende start te geven. Er is veel vraag naar Microsoft-gecertificeerde professionals en er zijn momenteel banen beschikbaar voor Azure-datawetenschappers. Verken de certificeringen voor datawetenschappers waar werkgevers het meest om vragen:

  • Microsoft Certified: Azure Data Scientist Associate. Pas je kennis van datawetenschap en machine learning toe om machine learning-workloads in Azure te implementeren en uit te voeren met behulp van Azure Machine Learning Service.
  • Microsoft Certified: Customer Data Platform Specialty. Implementeer oplossingen die inzicht in klantprofielen geven en betrokkenheidsactiviteiten bijhouden om de klantervaring te verbeteren en de klantretentie te verhogen.

Verschillen tussen gegevensanalisten en datawetenschappers

Net als datawetenschappers werken gegevensanalisten met grote gegevenssets om trends in gegevens te ontdekken. Datawetenschappers zijn doorgaans echter meer technische teamleden met meer expertise en verantwoordelijkheid, zoals het initiëren en leiden van datawetenschapsprojecten, het bouwen en trainen van machine learning-modellen en het presenteren van hun bevindingen aan leidinggevenden en op conferenties. Sommige datawetenschappers voeren al deze taken uit en anderen richten zich op specifieke taken, zoals het trainen van algoritmen of het bouwen van modellen. Veel datawetenschappers begonnen hun carrière als gegevensanalist, en gegevensanalisten kunnen binnen een paar jaar worden gepromoveerd naar datawetenschapper.

Datawetenschapper versus gegevensanalist

Typen datawetenschapsprojecten
Gegevensanalist Datawetenschapper
Rol

Statistische gegevensanalyse

Oplossingen voor complexe bedrijfsbehoeften ontwikkelen met behulp van big data

Typische tools

Microsoft Excel, SQL, Tableau, Power BI

SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, datawetenschap-notebooks

Analyse van gegevenstypen

Gestructureerde gegevens

Gestructureerde en ongestructureerde gegevens

Taken en plichten
  • Werken samen met belanghebbenden om de projecten te definiëren die zijn toegewezen door het management.
  • Gebruiken SQL om query's uit te voeren op gegevensbronnen en de juiste set gegevens te verzamelen.
  • Identificeren en analyseren gegevens en schonen ze op.
  • Interpreteren, visualiseren en presenteren hun bevindingen aan belanghebbenden via samenvattingsrapporten.
  • Initiëren zelf projecten op basis van hun domeinkennis.
  • Gebruiken geavanceerdere technieken voor statistiek, gegevensanalyse, analyses en modellering, waaronder machine learning.
  • Zetten de resultaten om in aanbevelingen die de bedrijfsresultaten stimuleren.
  • Visualiseren hun bevindingen effectief en presenteren ze aan belanghebbenden.

Veelgestelde vragen over datawetenschap

  • Een datawetenschapper is verantwoordelijk voor het analyseren van big data om waardevolle informatie te extraheren. Organisaties gebruiken deze informatie om te verbeteren hoe ze beslissingen nemen, problemen oplossen en activiteiten optimaliseren.

    Krijg meer informatie over de rol van datawetenschapper

  • Datawetenschap is het onderzoeken van gegevens om kennis op te doen. Het combineert verschillende wetenschappelijke disciplines om kennis uit enorme gegevenssets te extraheren voor weloverwogen beslissingen en voorspellingen.

    Krijg een inleiding tot datawetenschap

  • Datawetenschappers leiden onderzoeksprojecten om waardevolle informatie en bruikbare inzichten uit big data te extraheren. Dit omvat het definiëren van het probleem dat moet worden opgelost, het schrijven van query's om de juiste gegevens uit databases op te halen, het opschonen en sorteren van de gegevens, het bouwen en trainen van machine learning-modellen en het gebruiken van technieken voor gegevensvisualisatie om de bevindingen effectief te communiceren aan belanghebbenden.

    Ontdek hoe datawetenschappers kennis uit gegevens extraheren

  • Hoewel datawetenschapsdocumentatie verschilt per project en branche, bevat het over het algemeen projectplannen, verhalen van gebruikers, modeldocumentatie en documentatie voor ondersteunende systemen, zoals gebruikershandleidingen.

    Krijg meer informatie over datawetenschapsdocumentatie

  • Sommige IT-professionals leren datawetenschap door een masterdiploma of certificering in datawetenschap te behalen of door bootcamps en onlinecursussen te volgen. Certificeringen zijn een goede manier om je kwalificaties in datawetenschap te demonstreren en je carrière een vliegende start te geven. Er is veel vraag naar Microsoft-gecertificeerde professionals en er zijn momenteel banen beschikbaar voor Azure-datawetenschappers.

    Verken trainingsbronnen en certificeringen voor datawetenschap

  • Zowel gegevensanalisten als datawetenschappers werken met grote gegevenssets om trends in gegevens te ontdekken. Datawetenschappers hebben meestal echter meer technische expertise en verantwoordelijkheid als het gaat om het initiëren van hun onderzoeksprojecten. Een gegevensanalist kan bijvoorbeeld worden gevraagd een statistische gegevensanalyse te voltooien, terwijl een datawetenschapper kan worden gevraagd oplossingen voor complexe bedrijfsbehoeften te ontwikkelen door big data te analyseren.

    Bekijk een vergelijking van de verantwoordelijkheden van datawetenschappers en gegevensanalisten

  • Datawetenschapsprojecten variëren per branche en organisatiebehoefte. In een bedrijfsomgeving kan een datawetenschapper bijvoorbeeld een onderzoeksproject leiden om de klantenservice-ervaring te verbeteren. De vereiste gegevens omvatten niet alleen gestructureerde gegevens zoals metrische gegevens over websites en transacties, maar ook ongestructureerde gegevens zoals gebruikersbeoordelingen en notities van klantenserviceteams. De gedetailleerde analyse van al deze verschillende gegevensbronnen levert inzichten op die kunnen helpen aanbevolen wijzigingen in de huidige procedures te informeren.

  • In het bedrijfsleven is het meestvoorkomende doel van datawetenschap te verbeteren hoe organisaties functioneren. De inzichten die worden verkregen door een schat aan organisatiegegevens gezamenlijk te analyseren, kunnen helpen bestaande uitdagingen op te lossen of ideeën voor nieuwe manieren van zakendoen te genereren.

  • Ja, maar datawetenschappers hoeven mogelijk niet even bekwaam in coderen te zijn als programmeurs. Datawetenschappers kunnen programmeertalen zoals Julia, R of Python gebruiken om query's te schrijven. Python is ook populair omdat het relatief gemakkelijk te leren en te gebruiken is.

  • Vereisten voor datawetenschapsrollen kunnen variëren, maar ze omvatten doorgaans ten minste een van de volgende:

    • Een diploma in informatietechnologie of computerwetenschappen.
    • Voltooiing van een bootcamp of onlinecursus in datawetenschap.
    • Een masterdiploma of certificering in datawetenschap.

    Microsoft biedt verschillende trainingsbronnen en leertrajecten om je op weg te helpen een datawetenschapper te worden.

Ga aan de slag met een gratis Azure-account

Geniet 12 maanden lang van populaire gratis Azure-services, meer dan 55 services die altijd gratis zijn en een tegoed van USD $200 dat je in je eerste 30 dagen kunt gebruiken.

Neem contact op met een Azure AI-verkoopspecialist

Krijg advies om aan de slag te gaan met Azure AI. Stel vragen, krijg meer informatie over prijzen en best practices en krijg hulp bij het ontwerpen van een oplossing die aan je behoeften voldoet.