Co je to datová věda?
Datová věda je multidisciplinární vědecké studium dat za účelem extrakce důležitých dat a informací pro využitelné přehledy.
Co je to datový vědec?
Datový vědec vede výzkumné projekty s cílem extrahovat cenné informace z velkých objemů dat a má znalosti v oblasti technologií, matematiky, podnikání a komunikace. Organizace tyto informace využívají k lepšímu rozhodování, řešení složitých problémů a zlepšování provozu. Odkrýváním využitelných poznatků skrytých ve velkých datových sadách může datový vědec výrazně zlepšit schopnost společnosti dosahovat svých cílů. Proto jsou datoví vědci velmi žádaní a ve světě byznysu jsou dokonce považováni za „hvězdy“.
Definice datové vědy
Datová věda je vědecké studium dat za účelem získávání znalostí. Tento obor kombinuje více disciplín s cílem extrahovat znalosti z rozsáhlých datových sad pro účely informovaných rozhodnutí a predikcí. V oboru datové vědy pracují datoví vědci, datoví analytici, datoví architekti, datoví inženýři, statistici, správci databází a obchodní analytici.
Potřeba datové vědy rychle roste s tím, jak exponenciálně roste množství dat a jak jsou společnosti stále více závislé na analýzách, které jim pomáhají podporovat příjmy a inovace. Například s narůstající digitalizací obchodních interakcí je vytvářeno více dat, což představuje nové příležitosti k získávání poznatků o tom, jak lépe individuálně přizpůsobovat prostředí, zlepšovat služby a spokojenost zákazníků, vyvíjet nové a vylepšené produkty a zvyšovat prodej. Kromě toho má datová věda potenciál řešit některé z nejobtížnějších světových výzev, a to nejen ve světě podnikání.
Co datový vědec dělá?
Datový vědec shromažďuje, analyzuje a interpretuje velké objemy dat s cílem odhalovat vzory a poznatky a vytvářet predikce a akční plány. Velký objem dat je možné definovat jako datové sady, které mají větší rozmanitost, objem a rychlost ve srovnání s tím, co umožňovaly starší metody správy dat. Datoví vědci pracují s mnoha typy velkých objemů dat včetně následujících:
- Strukturovaná data, která jsou obvykle uspořádána do řádků a sloupců a obsahují slova a čísla, například jména, data a informace o platebních kartách. Například datový vědec v oboru veřejných služeb by mohl analyzovat tabulky s daty o výrobě a spotřebě energie, aby pomohl snížit náklady a odhalit vzory, které by mohly způsobit selhání zařízení.
- Nestrukturovaná data, která jsou neuspořádaná a zahrnují text v souborech dokumentů, data ze sociálních sítí a mobilních zařízení, obsah webů a videa. Například datový vědec v maloobchodě může odpovědět na otázku týkající se zlepšení prostředí pro zákazníky analýzou nestrukturovaných poznámek z call centra, e-mailů, průzkumů a příspěvků na sociálních sítích.
Kromě toho lze charakteristiky datové sady popsat jako kvantitativní, strukturovaná číselná data, nebo jako kvalitativní neboli kategorická data, která nejsou reprezentována číselnými hodnotami a lze je seskupovat na základě kategorií. Pro datové vědce je důležité znát typ dat, se kterým pracují, protože to přímo ovlivňuje typ analýz, které provádějí, a typy grafů, které můžou používat k vizualizaci těchto dat.
Aby datoví vědci mohli získávat znalosti ze všech těchto typů dat, využívají své dovednosti v následujících oblastech:
- Počítačové programování. Datoví vědci píšou dotazy k získávání dat z databáze společnosti pomocí jazyků, jako je Julia, R nebo Python. Python je oblíbeným jazykem mnoha datových vědců, protože se ho můžou snadno naučit a používat i lidé bez zkušeností s programováním a protože nabízí předem připravené moduly datové vědy pro analýzu dat.
- Matematika, statistika a pravděpodobnost. Datoví vědci využívají tyto dovednosti k analýze dat, testování hypotéz a vytváření modelů strojového učení – souborů, které datoví vědci trénují k rozpoznávání určitých typů vzorů. Datoví vědci používají natrénované modely strojového učení k odhalování vztahů v datech, vytváření predikcí týkajících se dat a hledání řešení problémů. Místo vytváření a trénování modelů od základu můžou datoví vědci také využívat automatizované strojové učení a získat tak přístup k modelům strojového učení připraveným pro produkční prostředí.
- Znalost oboru. Aby mohli datoví vědci převádět data na relevantní a smysluplné poznatky, které podpoří obchodní výsledky, potřebují mít také znalost daného oboru – musí rozumět odvětví a společnosti, kde pracují. Tady je několik příkladů, jak by datoví vědci mohli využít své znalosti oboru k řešení problémů specifických pro dané odvětví.
Typy projektů datových věd
Odvětví | Typy projektů datových věd |
---|---|
Podnikání | Vývoj nových produktů a jejich vylepšování Řízení dodavatelského řetězce a zásob Vylepšení služeb zákazníkům Doporučování produktů pro zákazníky elektronického obchodování |
Zábava | Pochopení vzorů používání mediálního obsahu Vývoj obsahu na základě dat o cílovém trhu Měření výkonu obsahu Přizpůsobená doporučení na základě preferencí uživatelů |
Finance a bankovnictví | Prevence podvodů a dalších porušení zabezpečení Řízení rizik investičních portfolií Virtuální asistenti, kteří zákazníkům pomáhají s otázkami |
Státní správa | Rozhodnutí o zásadách Monitorování spokojenosti voličů Detekce podvodů, například u žádostí o sociální dávky z důvodu postižení |
Zdravotnictví | Léčba založená na důkazech a nákladová efektivita nových léků Sledování šíření nemocí v reálném čase Nositelné sledovací moduly pro zlepšení péče o pacienty |
Telekomunikace | Vylepšování služeb na základě preferencí a místa pobytu uživatelů Minimalizace přerušených hovorů a dalších problémů se službami |
Veřejné služby | Analýza inteligentních měřičů pro zlepšení využívání veřejných služeb a spokojenosti zákazníků Vylepšená správa majetku a pracovních sil |
Existuje ještě jedna dovednost, která je klíčová pro otázku „Co datový vědec dělá?“ Efektivní sdělování výsledků analýz manažerům, vedoucím pracovníkům a dalším zúčastněným stranám je jednou z nejdůležitějších součástí jejich práce. Datoví vědci potřebují, aby byla jejich zjištění snadno srozumitelná i pro lidi bez technických znalostí, aby mohli zjištěné poznatky využívat k přijímání informovaných rozhodnutí. Datoví vědci proto musí být zkušení v následujících oblastech:
- Komunikace, veřejné vystupování a vizualizace dat. Skvělí datoví vědci mají silné verbální komunikační dovednosti, včetně vyprávění příběhů a veřejného vystupování. V oblasti datové vědy platí, že jeden obrázek vydá za tisíc slov. Prezentace zjištění datové vědy pomocí grafů a tabulek umožňuje lidem data rychle pochopit, a to během pouhých pěti sekund nebo i kratší doby. Z tohoto důvodu berou úspěšní datoví vědci vizualizace dat stejně vážně jako své analýzy.
Procesy datové vědy
Ve svých projektech postupují datoví vědci podle podobného procesu:
1. Definování obchodního problému
Datový vědec ve spolupráci se zúčastněnými stranami jasně definuje problém, který chtějí vyřešit, nebo otázku, na kterou potřebují odpovědět, spolu s cíli projektu a požadavky na řešení.
2. Definování analytického přístupu
Na základě příslušného obchodního problému se datový vědec rozhodne, jaký analytický přístup bude používat:
- Popisný – k získání více informací o aktuálním stavu.
- Diagnostický – k pochopení toho, co se děje a proč.
- Prediktivní – k předpovídání toho, co se stane.
- Preskriptivní – k pochopení toho, jak problém vyřešit.
3. Získání dat
Datový vědec identifikuje a získá data potřebná k dosažení požadovaného výsledku. To může zahrnovat provádění dotazů na databáze, extrahování informací z webů (web scraping) nebo získávání dat ze souborů. Data můžou být dostupná interně nebo si je tým může případně zakoupit. V některých případech můžou organizace potřebovat shromáždit nová data, aby mohly úspěšně realizovat nějaký projekt.
4. Vyčistění dat, označované také jako scrubbing
Tento krok je obvykle časově nejnáročnější. Při vytváření datové sady pro modelování převede datový vědec všechna data do stejného formátu, uspořádá je, odebere vše nepotřebné a nahradí veškerá chybějící data.
5. Prozkoumání dat
Po vyčištění dat datový vědec data zkoumá a pomocí statistických analytických technik odkrývá vztahy mezi vlastnostmi dat a statistické vztahy mezi nimi a hodnotami, které predikují (označované jako popisek). Predikovaný popisek může být kvantitativní hodnota, například finanční hodnota něčeho v budoucnosti nebo třeba délka zpoždění letu v minutách.
Zkoumání a příprava obvykle zahrnují velké množství interaktivních analýz a vizualizací dat – obvykle pomocí jazyků, jako je Python a R, v interaktivních nástrojích a prostředích specificky navržených pro tento úkol. Skripty používané ke zkoumání dat jsou obvykle hostovány ve specializovaných prostředích, jako jsou například aplikace Jupyter Notebook. Tyto nástroje umožňují datovým vědcům programově zkoumat data a přitom dokumentovat a sdílet zjištěné poznatky.
6. Modelování dat
Datový vědec vytváří a trénuje preskriptivní nebo popisné modely a pak tyto modely testuje a vyhodnocuje, aby se ujistil, že odpovídají na příslušnou otázku nebo řeší příslušný obchodní problém. Model je nejjednodušeji řečeno kód, který přijímá nějaké vstupy a vytváří výstupy. Vytváření modelu strojového učení zahrnuje výběr algoritmu, poskytnutí dat tomuto algoritmu a ladění hyperparametrů. Hyperparametry jsou nastavitelné parametry, které umožňují datovým vědcům řídit proces trénování modelu. Například u neurálních sítí rozhoduje datový vědec o počtu skrytých vrstev a počtu uzlů v každé vrstvě. Model ladění hyperparametrůLadění hyperparametrů, označované také jako optimalizace hyperparametrů, je proces hledání takové konfigurace hyperparametrů, jejíž výsledkem je nejlepší výkon.
Obvyklou otázkou je „Který algoritmus strojového učení mám použít?“ Algoritmus strojového učení převádí datovou sadu na model. To, jaký algoritmus datový vědec zvolí, závisí především na dvou různých aspektech scénáře datové vědy:
- Na jakou obchodní otázku chce datový vědec odpovědět učením se z historických dat?
- Jaké jsou požadavky scénáře datové vědy, včetně přesnosti, doby trénování, linearity, počtu parametrů a počtu funkcí?
Jako pomoc, jak na tyto otázky odpovědět, poskytuje služba Azure Machine Learning ucelené portfolio algoritmů, jako je rozhodovací les s více třídami, systémy pro doporučení, regrese neurální sítě, neurální síť s více třídami a clusteringu K-Means. Každý algoritmus je určen k řešení jiného typu problému strojového učení. Kromě toho tahák týkající se algoritmů Azure Machine Learning pomáhá datovým vědcům s výběrem správného algoritmu k nalezení odpovědi na příslušnou obchodní otázku.
7. Nasazení modelu
Datový vědec dodá finální model s dokumentací a po otestování nasadí novou datovou sadu do produkčního prostředí, aby mohla být ve firmě aktivně používána. Predikce z nasazeného modelu lze používat pro obchodní rozhodování.
8. Vizualizace výsledků a jejich sdělování
Vizualizační nástroje, jako jsou Microsoft Power BI, Tableau, Apache Superset a Metabase, usnadňují datovým vědcům zkoumání dat a vytváření poutavých vizualizací, které zobrazují zjištěné poznatky způsobem, který snadno pochopí i lidé bez technických znalostí.
Prakticky během celého procesu zahrnujícího příjem dat, jejich zjišťování, analýzu a vizualizaci a související spolupráci můžou datoví vědci také používat webové poznámkové bloky datové vědy, jako jsou poznámkové bloky Zeppelin.
Metody datové vědy
Datoví vědci používají statistické metody, jako je testování hypotéz, faktorová analýza, regresní analýza a clustering, aby získávali statisticky podložené poznatky.
Dokumentace datové vědy
Ačkoli se dokumentace datové vědy pro jednotlivé projekty a odvětví liší, obecně zahrnuje dokumentaci, která vysvětluje, odkud data pocházejí a jak byla upravena. To pomáhá ostatním členům datového týmu efektivně využívat tato data v budoucnosti. Dokumentace například pomáhá obchodním analytikům používat vizualizační nástroje k interpretaci datové sady.
Mezi typy dokumentace datové vědy patří:
- Projektové plány, které definují obchodní cíle projektu, hodnotící metriky, zdroje, časový plán a rozpočet.
- Scénáře uživatelů datové vědy pro generování nápadů pro projekty datové vědy. Datový vědec napíše takový scénář z pohledu zúčastněné strany a popíše, čeho by chtěla zúčastněná strana dosáhnout a z jakého důvodu o projekt žádá.
- Dokumentace modelu datové vědy, která dokumentuje datovou sadu, návrh experimentu a algoritmy.
- Dokumentace k podpůrným systémům zahrnující uživatelské příručky, dokumentaci infrastruktury pro údržbu systémů a dokumentaci kódu.
Jak se stát datovým vědcem
Existuje více cest, jak se stát datovým vědcem. Požadavky obvykle zahrnují vzdělání v oboru informačních technologií nebo informatiky. Někteří IT profesionálové se však datové vědě učí prostřednictvím bootcampů a online kurzů a jiní získají vysokoškolský titul nebo certifikaci v oblasti datové vědy.
Pokud se chcete dozvědět, jak se stát datovým vědcem, pomůžou vám tyto školicí materiály od společnosti Microsoft:
- Rychle začněte. Přečtěte si bezplatnou elektronickou knihu Principy datové vědy – průvodce teorií a statistickými metodami pro začátečníky. Seznámíte se se základy statistické analýzy a strojového učení a s klíčovými pojmy a procesy datové vědy.
- Rozvíjejte své dovednosti v oblasti strojového učení pomocí Azure, cloudové platformy od Microsoftu. Prozkoumejte materiály o strojovém učení pro datové vědce, které zahrnují bezplatná školicí videa, ukázkové architektury řešení a příběhy zákazníků.
- Získejte odborné znalosti strojového učení v Azure zdarma za pouhé 4 týdny. Věnujte hodinu času denně tomu, abyste se naučili vytvářet inovativní řešení složitých problémů. Naučíte se vše od základů až po škálování projektů strojového učení s využitím nejnovějších nástrojů a architektur. Prostřednictvím studijního programu „Ze začátečníka profesionálem“ pro strojové učení se také můžete vlastním tempem připravit na certifikaci Azure Data Scientist Associate.
- Získejte komplexní školení. Využijte studijní program Microsoftu pro datové vědce a vyberte si z celé řady kurzů umožňujících postupovat vlastním tempem a kurzů vedených instruktorem. Naučte se vytvářet modely strojového učení, používat vizuální nástroje, spouštět úlohy datové vědy v cloudu a vytvářet aplikace podporující zpracování přirozeného jazyka.
Certifikace pro datové vědce
Certifikace jsou skvělým způsobem, jak můžete prokázat svou kvalifikaci v oblasti datové vědy a nastartovat svou kariéru. Po odbornících s certifikací od Microsoftu je vysoká poptávka a právě teď jsou k dispozici pracovní místa pro datové vědce v Azure. Prozkoumejte certifikace pro datové vědce, které jsou mezi zaměstnavateli nejžádanější:
- Certifikace od Microsoftu: Azure Data Scientist Associate. Využijte své znalosti datové vědy a strojového učení k implementaci a spouštění úloh strojového učení v Azure pomocí služby Azure Machine Learning Service.
- Certifikace od Microsoftu: Customer Data Platform Specialty. Implementujte řešení, která poskytují přehledy o profilech zákazníků a sledují aktivity zapojení a umožňují tak zlepšovat prostředí pro zákazníky a zlepšovat míru udržení zákazníků.
Rozdíly mezi datovými analytiky a datovými vědci
Stejně jako datoví vědci pracují datoví analytici s velkými datovými sadami, aby odhalovali trendy v datech. Datoví vědci jsou však obvykle více technickými členy týmu s většími odbornými znalostmi a odpovědností, jako je zahajování a vedení projektů datové vědy, vytváření a trénování modelů strojového učení a prezentování zjištěných poznatků managementu a na konferencích. Někteří datoví vědci provádějí všechny tyto úkoly a jiní se zaměřují na konkrétní činnosti, jako je trénování algoritmů nebo vytváření modelů. Mnozí datoví vědci začali svou kariéru jako datoví analytici. Datoví analytici pak můžou být během několika let povýšeni na datové vědce.
Datový vědec a datový analytik – srovnání
Datový analytik | Datový vědec | |
---|---|---|
Role | Analýza statistických dat | Vývoj řešení pro složité obchodní potřeby s využitím velkých objemů dat |
Typické nástroje | Microsoft Excel, SQL, Tableau, Power BI | SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, poznámkové bloky datové vědy |
Analýza datových typů | Strukturovaná data | Strukturovaná a nestrukturovaná data |
Úkoly a povinnosti |
|
|
Další zdroje informací
Další zdroje informací
Nejčastější dotazy týkající se datové vědy
-
Datový vědec zodpovídá za dolování velkých objemů dat s cílem extrahovat cenné informace. Organizace tyto informace využívají k vylepšování způsobu, jakým se rozhodují, řeší složité problémy a zlepšují provoz.
-
Datová věda je studium dat za účelem získávání znalostí. Kombinuje různé vědecké disciplíny, aby z rozsáhlých datových sad získávala poznatky, které pomáhají zajišťovat informace pro rozhodování a predikce.
-
Datoví vědci vedou výzkumné projekty, jejichž cílem je extrahovat cenné informace a využitelné poznatky z velkých objemů dat. To zahrnuje definování problému, který má být vyřešen, psaní dotazů pro získání správných dat z databází, čištění a řazení těchto dat, vytváření a trénování modelů strojového učení a používání technik vizualizace dat k efektivní komunikaci zjištěných poznatků zúčastněným stranám.
-
Ačkoli se dokumentace datové vědy pro jednotlivé projekty a odvětví liší, obecně zahrnuje plány projektů, uživatelské scénáře, dokumentaci k modelům a dokumentaci k podpůrným systémům, například uživatelské příručky.
-
Někteří IT profesionálové se datové vědě učí tak, že získají vysokoškolský titul nebo certifikaci v oblasti datové vědy nebo prostřednictvím bootcampů a online kurzů. Certifikace jsou skvělým způsobem, jak můžete prokázat svou kvalifikaci v oblasti datové vědy a nastartovat svou kariéru. Po odbornících s certifikací od Microsoftu je vysoká poptávka a právě teď jsou k dispozici pracovní místa pro datové vědce v Azure.
Prozkoumejte školicí materiály a certifikace pro datovou vědu
-
Datoví vědci i datoví analytici pracují s velkými datovými sadami, aby odhalovali trendy v datech. Datoví vědci ale obvykle mají větší technické znalosti a zodpovědnost při zahajování výzkumných projektů. Datový analytik může být například požádán, aby provedl statistickou analýzu dat, zatímco datový vědec může být požádán, aby vyvinul řešení složitých obchodních potřeb pomocí dolování velkých objemů dat.
Podívejte se na srovnání zodpovědností datového vědce a datového analytika
-
Projekty datové vědy se liší v závislosti na odvětví a potřebách organizace. V podnikovém prostředí může například datový vědec vést výzkumný projekt, jehož cílem je zjistit, jak zlepšit prostředí služeb zákazníkům. Požadovaná data nezahrnují jen strukturovaná data, jako jsou metriky pro weby a transakce, ale také nestrukturovaná data, jako jsou uživatelské recenze a poznámky týmů služeb zákazníkům. Podrobnou analýzou všech těchto nesourodých zdrojů dat můžete získat poznatky, které můžou pomoct definovat doporučené změny stávajících postupů.
-
Ve firemním prostředí je nejčastějším cílem datové vědy zlepšení fungování organizací. Poznatky získané při společné analýze velkého množství dat organizace můžou pomoct vyřešit stávající problémy nebo přinést nápady týkající se nových způsobů podnikání.
-
Ano, ačkoli datoví vědci nemusí potřebovat stejnou úroveň znalostí psaní kódu jako programátoři. Datoví vědci můžou k psaní dotazů používat programovací jazyky, jako je Julia, R nebo Python. Jazyk Python je také oblíbený, protože je poměrně snadné se ho naučit a používat.
-
Požadavky na jednotlivé role v oboru datové vědy se můžou lišit, ale obvykle zahrnují alespoň jeden z následujících požadavků:
- Vzdělání v oboru informačních technologií nebo informatiky.
- Absolvování bootcampu nebo online kurzu zaměřeného na datovou vědu.
- Vysokoškolský titul nebo certifikace v oboru datové vědy.
Společnost Microsoft nabízí celou řadu školicích materiálů a studijních programů, které vám pomůžou začít a stát se datovým vědcem.
Začněte s bezplatným účtem Azure
Využívejte oblíbené služby Azure zdarma po dobu 12 měsíců, více než 55 služeb, které jsou vždy zdarma, a kredit 200 USD, který můžete využít během prvních 30 dnů.
Spojte se s prodejním specialistou na Azure AI
Získejte rady, jak začít používat Azure AI. Využijte možnost ptát se, seznámit se s cenami a osvědčenými postupy a získat pomoc s návrhem řešení, které bude vyhovovat vašim potřebám.