Trace Id is missing
Przejdź do głównej zawartości

Co to jest nauka o danych?

Nauka o danych to łączące wiele dyscyplin naukowe badanie danych w celu wyodrębnienia ważnych danych na potrzeby uzyskania szczegółowych informacji umożliwiających podejmowanie działań.

Kim jest badacz danych?

Badacz danych kieruje projektami badawczymi, aby wyodrębniać cenne informacje z danych big data, i posiada umiejętności z zakresu technologii, matematyki, biznesu i komunikacji. Organizacje używają tych informacji do podejmowania lepszych decyzji, rozwiązywania złożonych problemów i ulepszania działania. Dzięki ujawnieniu ukrytych w dużych zestawach danych szczegółowych informacji umożliwiających podjęcie działań badacz danych może znacznie zwiększyć zdolność firmy do realizacji celów. Stąd tak duże zapotrzebowanie na badacze danych, którzy są niemal uważani za "gwiazdy" w świecie biznesowym.

Definicja nauki o danych

Nauka o danych to naukowe badanie danych w celu uzyskania wiedzy. To dziedzina łącząca wiele dyscyplin w celu wyodrębniania wiedzy z ogromnych zestawów danych na potrzeby podejmowania świadomych decyzji i generowania przewidywań. Badacze danych, analitycy danych, architekci danych, inżynierowie danych, statystycy, administratorzy baz danych i analitycy biznesowi wszyscy zajmują się dziedziną nauki o danych.

Zapotrzebowanie na naukę o danych błyskawicznie rośnie wraz z wykładniczym wzrostem ilości danych, a firmy w większym stopniu polegają na analizach na potrzeby zwiększania przychodów i rozwijania innowacji. Na przykład w miarę tego, jak interakcje biznesowe coraz bardziej się cyfryzują, tworzone są kolejne dane, co otwiera nowe możliwości uzyskiwania szczegółowych informacji na temat lepszego personalizowania środowisk, poprawy jakości obsługi i zwiększania zadowolenia klientów, opracowywania nowych i ulepszonych produktów oraz zwiększania sprzedaży. Ponadto w świecie biznesowym i poza nim nauka o danych ma potencjał, aby ułatwić stawienie czoła niektórym z najtrudniejszych wyzwań, przed jakimi stoi świat.

Czym zajmuje się badacz danych?

Badacz danych zbiera, analizuje i interpretuje dane big data w celu odkrywania wzorców i szczegółowych informacji, generowania przewidywań i tworzenia planów umożliwiających podejmowanie działań. Dane big data można zdefiniować jako zestawy danych o większej różnorodności, ilości danych i szybkości pracy, niż są w stanie obsłużyć wcześniejsze metody zarządzania danymi. Badacze danych pracują z wieloma typami danych big data, w tym z następującymi:

  • Dane ustrukturyzowane, które są zwykle uporządkowane w wierszach i kolumnach oraz zawierają wyrazy i liczby, takie jak nazwy, daty i informacje o karcie kredytowej. Na przykład badacz danych w branży usług komunalnych może analizować tabele danych dotyczących generowania i zużycia energii w poszukiwaniu wzorców mogących powodować awarie sprzętu i możliwości zmniejszenia kosztów.
  • Dane bez struktury, które są niezorganizowane i obejmują tekst w plikach dokumentów, dane mediów społecznościowych i urządzeń mobilnych, zawartość witryn internetowych oraz klipy wideo. Na przykład badacz danych pracujących w branży handlu detalicznego może odpowiedzieć na pytanie dotyczące poprawy jakości obsługi klienta, analizując pozbawione struktury notatki dotyczące rozmów z centrum obsługi, wiadomości e-mail, ankiety i wpisy w mediach społecznościowych.

Ponadto na podstawie cech zestawy danych można opisać jako ilościowe, ustrukturyzowane dane liczbowe albo dane jakościowe lub kategoryzowalne, które nie mogą być reprezentowane za pomocą wartości liczbowych, ale mogą zostać pogrupowane na podstawie kategorii. Ważne jest, aby badacze danych wiedzieli, z jakimi danymi pracują, ponieważ ma to bezpośredni wpływ na typ wykonywanych analiz i typy grafów, za pomocą których można wizualizować dane.

Aby wyodrębnić wiedzę z wszystkich tych typów danych, badacze danych wykorzystują umiejętności w następujących dziedzinach:

  • Programowanie komputerowe. Badacze danych piszą zapytania przy użyciu języków takich jak Julia, R i Python w celu ściągania danych z firmowej bazy danych. Badacze danych często wybierają język Python, ponieważ jest łatwy do nauczenia się i prosty w używaniu, nawet dla osób bez doświadczenia w kodowaniu, a także oferuje wstępnie utworzone moduły nauki o danych na potrzeby analizy danych.
  • Matematyka, statystyka i prawdopodobieństwo. Badacze danych wykorzystują te umiejętności, aby analizować dane, testować hipotezy i tworzyć modele uczenia maszynowego — pliki trenowane przez badaczy danych pod kątem rozpoznawania określonych typów wzorców. Za pomocą wytrenowanych modeli uczenia maszynowego badacze danych odnajdują relacje w danych, generują przewidywania dotyczące danych i znajdują rozwiązania problemów. Zamiast tworzyć i trenować modele od podstaw, badacze danych mogą też korzystać ze zautomatyzowanego uczenia maszynowego, aby używać modeli uczenia maszynowego gotowych do wykorzystania w produkcji.
  • Wiedza o badanej dziedzinie. Aby przełożyć dane na istotne i nadające się do wykorzystania szczegółowe informacje, które wpłyną na wyniki biznesowe, badacze danych potrzebują również wiedzy o badanej dziedzinie, czyli zrozumienia branży i firmy, w której pracują. Oto kilka przykładów zastosowania przez badaczy danych wiedzy o badanej dziedzinie w celu rozwiązania problemów charakterystycznych dla branży.

Typy projektów nauki o danych

Typy projektów nauki o danych
Branża Typy projektów nauki o danych
Firmy Opracowywanie nowych produktów i ulepszania istniejących
Zarządzanie łańcuchem dostaw i zapasami
Ulepszenia obsługi klienta
Rekomendacje dotyczące produktów dla klientów handlu elektronicznego
Rozrywka Interpretacja wzorców wykorzystania zawartości multimedialnej
Opracowywanie zawartości na podstawie danych rynków docelowych
Pomiar wydajności zawartości
Dostosowane rekomendacje na podstawie preferencji użytkownika
Finanse i bankowość Zapobieganie oszustwom i innym naruszeniom zabezpieczeń
Zarządzanie ryzykiem portfeli inwestycyjnych
Asystenci wirtualni pomagający klientom w znajdowaniu odpowiedzi na pytania
Instytucje rządowe Decyzje dotyczące zasad
Monitorowanie zadowolenia wyborców
Wykrywanie oszustw, na przykład przy roszczeniach z tytułu niezdolności do pracy
Opieka zdrowotna Oparte na dowodach terapie z wykorzystaniem leków i badanie opłacalności nowych leków
Śledzenie epidemii chorób w czasie rzeczywistym
Urządzenia monitorujące do noszenia na sobie poprawiające opiekę nad pacjentami
Telekomunikacja Ulepszenia usług na podstawie preferencji użytkownika i lokalizacji
Minimalizowanie porzuconych połączeń telefonicznych i innych problemów z obsługą
Usługi komunalne Analiza danych z mierników inteligentnych w celu ulepszenia wykorzystania usług komunalnych i zwiększenia zadowolenia klientów
Ulepszone zarządzanie zasobami i pracownikami

Jest jeszcze jedna umiejętność, która ma kluczowe znaczenie przy odpowiadaniu na pytanie o to, czym zajmuje się badacz danych. Skuteczne komunikowanie wyników analiz menedżerom, kierownictwu i innym interesariuszom projektów jest jedną z najważniejszych części tej pracy. Badacze danych muszą ułatwić zrozumienie swoich ustaleń odbiorcom nieznającym się na tej technologii, aby mogli oni podejmować świadome decyzje na podstawie tych szczegółowych informacji. W związku z tym badacze danych muszą mieć umiejętności w następujących obszarach:

  • Komunikacja, wystąpienia publiczne i wizualizacja danych. Świetni badacze danych mają rozwinięte umiejętności komunikacji słownej, w tym związane z narracją opowieści i wystąpieniami publicznymi. W dziedzinie nauki o danych obraz naprawdę jest wart tysiąca słów. Prezentowanie wyników nauki o danych przy użyciu grafów i wykresów umożliwia odbiorcom szybkie zrozumienie danych nawet w ciągu pięciu sekund lub szybciej. Z tego powodu odnoszący sukcesy badacze danych traktują swoje wizualizacje danych tak poważnie, jak analizy.

Procesy nauki o danych

Badacze danych realizują podobny proces w celu sfinalizowania projektów:

1. Definiowanie problemu biznesowego

Badacz danych współpracuje z interesariuszami projektu w celu jasnego zdefiniowania problemu, który ma zostać rozwiązany, lub pytania, na które należy znaleźć odpowiedź, wraz z celami projektu i wymaganiami dotyczącymi rozwiązania.

2. Definiowanie podejścia analitycznego
Na podstawie problemu biznesowego badacz danych decyduje, które podejście analityczne należy zastosować:

  • Opisowe, aby uzyskać więcej informacji o stanie bieżącym.
  • Diagnostyczne, aby zrozumieć, co się dzieje i dlaczego.
  • Predykcyjne, aby wygenerować prognozę tego, co się stanie.
  • Normatywne, aby zrozumieć, jak rozwiązać problem.

3. Uzyskiwanie danych

Badacz danych identyfikuje i uzyskuje dane potrzebne do osiągnięcia żądanego wyniku. Może to obejmować badanie baz danych za pomocą zapytań, wyodrębnianie informacji z witryn internetowych (wydobywanie z Internetu) lub uzyskiwanie danych z plików. Dane mogą być dostępne wewnętrznie lub zespół może musieć je zakupić. W niektórych przypadkach organizacje muszą zebrać nowe dane, aby można było pomyślnie rozpocząć projekt.

4. Czyszczenie danych, czyli data scrubbing

Ten krok jest zwykle najbardziej czasochłonny. Aby utworzyć zestaw danych do modelowania, badacz danych konwertuje wszystkie dane na ten sam format, organizuje dane, usuwa to, co nie jest potrzebne, i zastępuje wszystkie brakujące dane.

5. Eksplorowanie danych

Po oczyszczeniu danych badacz danych eksploruje dane i stosuje do nich techniki analizy statystycznej, aby ujawnić relacje między cechami danych i relacje statystyczne między nimi a przewidywanymi wartościami (nazywanymi etykietami). Przewidywana etykieta może być wartością ilościową, taką jak jakaś wartość finansowa w przyszłości lub czas trwania opóźnienia lotu w minutach.

Eksploracja i przygotowanie zwykle obejmują wiele interakcyjnych analiz i wizualizacji danych — zwykle przy użyciu języków takich jak Python i R w interakcyjnych narzędziach i środowiskach specjalnie zaprojektowanych do tego zadania. Skrypty używane do eksplorowania danych są zwykle hostowane w wyspecjalizowanych środowiskach, takich jak notesy Jupyter Notebook. Te narzędzia umożliwiają badaczom danych programowe eksplorowanie danych podczas dokumentowania i udostępniania znalezionych szczegółowych informacji.

6. Modelowanie danych

Badacz danych tworzy i trenuje modele normatywne lub opisowe, a następnie testuje i ocenia model, aby upewnić się, że pozwala on odpowiedzieć na dane pytanie lub rozwiązać dany problem biznesowy. W najprostszym przypadku model jest fragmentem kodu, który pobiera dane wejściowe i generuje dane wyjściowe. Tworzenie modelu uczenia maszynowego polega na wybraniu algorytmu, udostępnieniu go danym i dostrojeniu hiperparametrów. Hiperparametry to dostosowywalne parametry, które umożliwiają badaczom danych sterowanie procesem trenowania modelu. Na przykład w przypadku sieci neuronowych badacz danych decyduje o liczbie warstw ukrytych i o liczbie węzłów w każdej warstwie. Dostrajanie hiperparametrów, nazywane również optymalizacją hiperparametrów, to proces znajdowania konfiguracji hiperparametrów, która zapewnia najlepszą wydajność.

Zwykle pada pytanie o to, którego algorytmu uczenia maszynowego należy użyć. Algorytm uczenia maszynowego przekształca zestaw danych w model. Algorytm wybrany przez badacza danych zależy przede wszystkim od dwóch różnych aspektów scenariusza nauki o danych:

  • Na jakie pytanie biznesowe chce odpowiedzieć badacz danych za pomocą uczenia się na podstawie wcześniejszych danych?
  • Jakie są wymagania scenariusza nauki o danych, w tym dokładność, czas trenowania, liniowość, liczba parametrów i liczba cech?

Aby pomóc w udzieleniu odpowiedzi na te pytania, usługa Azure Machine Learning udostępnia kompleksowy zestaw algorytmów, takich jak wieloklasowy las decyzyjny, systemy rekomendacji, regresja sieci neuronowej, wieloklasowa sieć neuronowa i klastrowanie metodą k-średnich. Każdy algorytm jest przeznaczony do rozwiązywania innego typu problemu uczenia maszynowego. Ponadto ściągawka dotycząca algorytmów usługi Azure Machine Learning pomaga badaczom danych wybrać odpowiedni algorytm, aby odpowiedzieć na pytanie biznesowe.

7. Wdrażanie modelu

Badacz danych dostarcza ostateczny model z dokumentacją i wdraża nowy zestaw danych w środowisku produkcyjnym po zakończeniu testowania, aby model ten mógł odgrywać aktywną rolę w firmie. Prognoz z wdrożonego modelu można używać do podejmowania decyzji biznesowych.

8. Wizualizowanie i komunikowanie wyników

Narzędzia do wizualizacji, takie jak Microsoft Power BI, Tableau, Apache Superset i Metabase, ułatwiają badaczowi danych eksplorowanie danych i generowanie atrakcyjnych wizualizacji, które pozwalają prezentować wyniki w sposób ułatwiający zrozumienie ich odbiorcom nietechnicznym.

Ponadto podczas większej części procesu pozyskiwania danych, odnajdywania, analizy, wizualizacji i współpracy badacze danych mogą korzystać z internetowych notesów nauki o danych, takich jak notesy Zeppelin.

Metody nauki o danych

Badacze danych używają metod statystycznych, takich jak testowanie hipotez, analiza czynnikowa, regresja i klastrowanie, aby uzyskać statystycznie uzasadnione szczegółowe informacje.

Dokumentacja dotycząca nauki o danych

Mimo że dokumentacja dotycząca nauki o danych zależy od projektu i branży, zwykle obejmuje dokumentację, z której wynika, skąd pochodzą dane i jak zostały zmodyfikowane. Pomaga to innym członkom zespołu ds. danych efektywnie korzystać z danych w przyszłości. Dokumentacja ułatwia na przykład analitykom biznesowym interpretowanie zestawu danych za pomocą narzędzi do wizualizacji.

Typy dokumentacji dotyczącej nauki o danych obejmują następujące:

  • Plany projektu definiujące cele biznesowe projektu, metryki oceny, zasoby, oś czasu i budżet.
  • Scenariusze użytkowników nauki o danych służące do zbierania pomysłów na projekty nauki o danych. Badacz danych zapisuje scenariusz z punktu widzenia interesariusza projektu, opisując, co dany interesariusz chce osiągnąć, oraz przyczynę wnioskowania przez niego o projekt.
  • Dokumentacja modelu nauki o danych służąca do udokumentowania zestawu danych, projektu eksperymentu i algorytmów.
  • Dokumentacja systemów pomocniczych, w tym podręczniki użytkownika, dokumentacja infrastruktury na potrzeby konserwacji systemu i dokumentacja kodu.

Jak zostać badaczem danych

Istnieje wiele ścieżek umożliwiających zostanie badaczem danych. Wymagania zwykle obejmują stopień naukowy w dziedzinie informatyki lub technologii informatycznych. Jednak niektórzy informatycy kształcą się w dziedzinie nauki o danych w ramach kursów online i szkoleń typu bootcamp, a inni uzyskują dyplom lub stopień magistra nauki o danych.

Aby dowiedzieć się, jak zostać badaczem danych, skorzystaj z tych zasobów szkoleniowych firmy Microsoft, które ułatwią Ci zrealizowanie następujących celów:

Certyfikaty badaczy danych

Certyfikaty to doskonały sposób na zademonstrowanie kwalifikacji w zakresie nauki o danych i szybkie rozpoczęcie kariery. Certyfikowani specjaliści firmy Microsoft są bardzo poszukiwani i obecnie na rynku jest wiele ofert pracy kierowanych do badaczy danych platformy Azure. Poznaj certyfikaty badaczy danych, których najczęściej szukają pracodawcy:

  • Microsoft Certified: Azure Data Scientist Associate. Stosowanie wiedzę na temat nauki o danych i uczenia maszynowego do implementowania i uruchamiania obciążeń uczenia maszynowego na platformie Azure przy użyciu usługi Azure Machine Learning Service.
  • Microsoft Certified: Customer Data Platform Specialty. Implementowanie rozwiązań zapewniających szczegółowe informacje na temat profilów klientów i umożliwiających śledzenie działań związanych z zaangażowaniem klientów w celu ulepszania obsługi klientów i zwiększania ich utrzymania.

Różnice między analitykami danych i badaczami danych

Analitycy danych, podobnie jak badacze danych, pracują z dużymi zestawami danych, aby odkrywać trendy w danych. Jednak badacze danych są zazwyczaj bardziej technicznymi członkami zespołu z większą wiedzą i odpowiedzialnością. Odpowiadają na przykład za inicjowanie i prowadzenie projektów nauki o danych, tworzenie i trenowanie modeli uczenia maszynowego oraz prezentowanie ustaleń kierownictwu i na konferencjach. Niektórzy badacze danych wykonują wszystkie te zadania, a inni skupiają się na konkretnych z nich, takich jak trenowanie algorytmów lub tworzenie modeli. Wielu badaczy danych rozpoczynało karierę jako analitycy danych, ponieważ analitycy danych mogą awansować na badaczy danych w ciągu kilku lat.

Badacz danych a analityk danych

Typy projektów nauki o danych
Analityk danych Badacz danych
Rola

Analiza statystyczna danych

Opracowywanie rozwiązań dla złożonych potrzeb biznesowych przy użyciu danych big data

Typowe narzędzia

Microsoft Excel, SQL, Tableau, Power BI

SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks

Analiza typów danych

Dane ustrukturyzowane

Dane ze strukturą i bez struktury

Zadania i obowiązki
  • Współpraca z interesariuszami projektu przy definiowaniu projektów przypisanych przez kierownictwo.
  • Używanie języka SQL do badania źródeł danych za pomocą zapytań i zbierania odpowiedniego zestawu danych.
  • Identyfikowanie, czyszczenie i analizowanie danych.
  • Interpretowanie, wizualizowanie i prezentowanie wyników interesariuszom projektu za pośrednictwem raportów podsumowujących.
  • Samodzielne inicjowanie projektów na podstawie własnej wiedzy o badanej dziedzinie.
  • Korzystanie z bardziej zaawansowanych technik statystycznych, wyszukiwania danych, analizy i modelowania, w tym uczenia maszynowego.
  • Przekładanie wyników na rekomendacje stymulujące wyniki biznesowe.
  • Efektywne wizualizowanie uzyskanych wyników i prezentowanie ich interesariuszom projektu.

Często zadawane pytania dotyczące nauki o danych

  • Badacz danych odpowiada za wydobywanie danych big data w celu wyodrębnienia cennych informacji. Organizacje używają tych informacji do ulepszania sposobu podejmowania decyzji, rozwiązywania problemów i optymalizowania działań.

    Dowiedz się więcej o roli badacza danych

  • Nauka o danych to badanie danych w celu uzyskania wiedzy. To dziedzina łącząca wiele dyscyplin naukowych w celu wyodrębniania wiedzy z ogromnych zestawów danych na potrzeby podejmowania świadomych decyzji i generowania przewidywań.

    Wprowadzenie do nauki o danych

  • Badacze danych prowadzą projekty badawcze, aby wyodrębniać z danych big data cenne informacje i szczegółowe informacje umożliwiające podejmowanie działań. Obejmuje to definiowanie problemu do rozwiązania, pisanie zapytań w celu ściągania odpowiednich danych z baz danych, czyszczenie i sortowanie danych, tworzenie i trenowanie modeli uczenia maszynowego oraz stosowanie technik wizualizacji danych w celu skutecznego komunikowania wyników interesariuszom projektu.

    Dowiedz się, jak badacze danych wyodrębniają wiedzę z danych

  • Mimo że dokumentacja dotycząca nauki o danych zależy od projektu i branży, zazwyczaj obejmuje plany projektów, scenariusze użytkowników, dokumentację modelu i dokumentację systemów pomocniczych, taką jak podręczniki użytkownika.

    Dowiedz się więcej o dokumentacji dotyczącej nauki o danych

  • Niektórzy informatycy kształcą się w dziedzinie nauki o danych, uzyskując dyplom lub stopień magistra nauki o danych albo uczestnicząc w kursach online i szkoleniach typu bootcamp. Certyfikaty to doskonały sposób na zademonstrowanie kwalifikacji w zakresie nauki o danych i szybkie rozpoczęcie kariery. Certyfikowani specjaliści firmy Microsoft są bardzo poszukiwani i obecnie na rynku jest wiele ofert pracy kierowanych do badaczy danych platformy Azure.

    Przeglądaj certyfikaty i zasoby szkoleniowe dotyczące nauki o danych

  • Zarówno analitycy danych, jak i badacze danych pracują z dużymi zestawami danych, aby odkrywać trendy w danych. Jednak badacze danych zwykle mają większą wiedzę techniczną i odpowiedzialność w zakresie inicjowania projektów badawczych. Na przykład analityk danych może zostać poproszony o przygotowanie analizy statystycznej danych, podczas gdy badacz danych może zostać poproszony o opracowanie rozwiązań dla złożonych potrzeb biznesowych przez zastosowanie wyszukiwania danych big data.

    Zobacz porównanie obowiązków badacza danych i analityka danych

  • Projekty nauki o danych różnią się w zależności od branży i potrzeb organizacyjnych. Na przykład w środowisku biznesowym badacz danych może prowadzić projekt badawczy, aby określić, jak ulepszyć środowiska obsługi klienta. Wymagane dane obejmują nie tylko dane ustrukturyzowane, takie jak metryki transakcji i witryn internetowych, ale także dane bez struktury, takie jak recenzje użytkowników i notatki od zespołów obsługi klienta. Szczegółowa analiza wszystkich tych różnych źródeł danych pozwoli uzyskać szczegółowe informacje, które mogą pomóc w przygotowaniu opartych rekomendowanych zmian w bieżących procedurach.

  • W biznesie najczęstszym celem nauki o danych jest ulepszenie sposobu działania organizacji. Szczegółowe informacje uzyskane na podstawie zbiorczej analizy wielu zestawów danych organizacji mogą pomóc w rozwiązywaniu istniejących problemów lub wyłanianiu pomysłów na nowe sposoby prowadzenia działalności.

  • Tak, chociaż badacze danych mogą nie potrzebować takiej samej biegłości w kodowaniu jak programiści. Badacze danych mogą używać języków programowania, takich jak Julia, R lub Python, do pisania zapytań. Język Python jest również popularny, ponieważ stosunkowo łatwo jest się go nauczyć i go używać.

  • Wymagania dotyczące ról nauki o danych mogą się różnić, ale zazwyczaj obejmują co najmniej jedną z następujących kwestii:

    • Stopień naukowy w dziedzinie informatyki lub technologii informatycznych.
    • Ukończenie kursu online lub szkolenia typu bootcamp dotyczącego nauki o danych.
    • Dyplom lub stopień magistra nauki o danych.

    Firma Microsoft oferuje różne zasoby szkoleniowe i ścieżki szkoleniowe, dzięki którym można zacząć się uczyć w celu zostania badaczem danych.

Zacznij korzystać z bezpłatnego konta platformy Azure

Korzystaj z popularnych usług platformy Azure bezpłatnie przez 12 miesięcy, ponad 55 innych zawsze bezpłatnych usług oraz 200 USD środków do wykorzystania w ciągu pierwszych 30 dni.

Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure AI

Uzyskaj porady dotyczące rozpoczynania pracy z platformą Azure AI. Zadaj pytania, poznaj ceny i najlepsze rozwiązania oraz uzyskaj pomoc przy projektowaniu rozwiązania spełniającego Twoje potrzeby.