什麼是資料科學?
資料科學是資料的跨領域科學研究,旨在擷取重要資料和資訊,以打造可採取動作的深入解析。
什麼是資料科學家?
資料科學家會主導研究專案以從巨量資料中擷取有價值的資訊,而且他們具備技術、數學、商業和溝通方面的專業技能。組織會使用這類資訊來做出更好的決策、解決複雜的問題,以及改善營運。資料科學家可以揭露隱藏在大型資料集中可採取動作的深入解析,藉此大幅改善公司達成目標的能力。因此,資料科學家相當炙手可熱,在業界甚至被視為「搖滾巨星」。
資料科學的定義
資料科學是資料的科學研究,可用來獲取知識。此領域結合了多個專業範疇,可從巨型資料集中擷取知識,旨在協助您做出明智的決策和預測。資料科學家、資料分析師、資料架構師、資料工程師、統計學家、資料庫管理員和商務分析師都在資料科學的領域中工作。
資料科學的需求迅速成長,因為資料量以指數方式急遽增加,而且公司也更加仰賴資料分析以促進收益和創新。舉例來說,由於商業互動變得更加數位化,產生了更多資料,因此顯現了一個可導出深入解析的全新機會,可進一步了解如何將體驗更加個人化、改善服務和客戶滿意度、開發更優質的新產品,以及提升銷售額。除此之外,在業界或其他領域,資料科學都有潛力解決某些世界上最困難的挑戰。
資料科學家會做些什麼?
資料科學家會收集、分析並解讀巨量資料來揭示各種模式和深入解析、做出預測,以及建立可採取動作的計畫。巨量資料可定義為擁有更多種類、更多數量且速度更快的資料集,處理範圍超越早期配備的資料管理方法。資料科學家會處理許多類型的巨量資料,包括:
- 結構化資料:通常會組織成資料列和資料欄,其中包含許多詞組和數字,例如姓名、日期和信用卡資訊。舉例來說,公用事業領域的資料科學家可能會分析能源生產和使用量資料的表格,以協助降低成本並偵測可能導致設備故障的模式。
- 非結構化資料:未經過組織的資料,且包括文件檔案、社交媒體和行動資料、網站內容及影片中的文字。舉例來說,零售業界的資料科學家可能會分析非結構化的服務中心筆記、電子郵件、問卷和社交媒體貼文,藉此回答一個關於改善客戶體驗的問題。
除此之外,資料集的特性也可以描述為量化、結構化的數值資料,或是質化或明確的資料,這不是以數值表示,且可根據類別進行分組。對資料科學家而言,他們必須了解自己所處理的資料類型,因為這會直接影響到他們執行的分析類型,以及可以用來將資料視覺化的圖表類型。
為了從所有的資料類型中獲得知識,資料科學家會運用這些領域的技術:
- 電腦程式設計。資料科學家會使用 Julia、R 或 Python 等語言來撰寫查詢,以便從公司的資料庫中提取資料。Python 是許多資料科學家選用的語言,因為它相當容易學習與上手,就算沒有撰寫程式碼的經驗也不是問題。另外,這個語言還能提供預先建置的資料科學模組以進行資料分析。
- 數學、統計和機率。資料科學家仰賴這些技術來分析資料、測試假說,並建置機器學習模型 (資料科學家為了識別出特定類型的模式而訓練過的一批檔案)。資料科學家會使用訓練過的機器學習模型來探索資料關係、根據資料做出預測,並找出問題的解決方案。除了從頭建置並訓練模型之外,資料科學家也可以善加利用自動化機器學習,來取得已準備好投入生產環境的機器學習模型。
- 領域知識。為了將資料轉譯為相關且具有意義的深入解析以便推動業務成果,資料科學家也需要利用領域知識,了解他們所協助的業界和公司。以下是說明資料科學家會如何運用他們的領域知識來解決特定業界問題的一些範例。
資料科學專案類型
產業 | 資料科學專案類型 |
---|---|
商業 | 新產品開發和產品增強功能 供應鏈和庫存管理 客戶服務改善項目 電子商務客戶的產品建議 |
娛樂 | 了解媒體內容使用模式 根據目標市場資料進行內容開發 內容效能測量 根據使用者偏好給出自訂建議 |
金融與銀行 | 防範詐騙和其他安全性缺口 投資組合的風險管理 可協助客戶解決問題的虛擬助理 |
政府 | 原則決策 選民滿意度監控 詐騙偵測,例如身心障礙索賠 |
醫療保健 | 有實證基礎的藥物治療和新藥物的成本效益 即時追蹤疾病爆發狀況 可改善病患照護的穿戴式追蹤裝置 |
電信 | 以使用者偏好和位置為根據的服務改善項目 盡量降低通話中斷和其他服務問題 |
公用事業 | 以更智慧的計量分析來改善公用設施使用狀況和客戶滿意度 改善資產和員工管理 |
還有一個技能對以下問題相當重要:「資料科學家會做些什麼?」 他們最重要的工作內容之一,就是將他們的分析結果有效地傳達給經理、執行長和其他專案關係人。資料科學家需要以簡單易懂的方式,為非技術背景的受眾說明結果,讓這些受眾得以使用這些深入解析做出明智的決策。因此,資料科學家必須擁有下列技能:
- 溝通、公開演說和資料視覺化。優秀的資料科學家擁有強大的口語溝通技巧,包括故事說明和公開演說。在資料科學的領域,一張圖片勝過千言萬語。使用圖表和資料表來呈現資料科學結果,可讓受眾在僅僅五秒,或是更短的時間內快速理解資料。基於這項理由,成功的資料科學家會將他們的資料視覺化和分析技術看得同等重要。
資料科學程序
資料科學家會遵循類似的程序來完成他們的專案:
1. 定義商務問題
資料科學家會與專案關係人共同合作,明確定義他們要解決或者要回答的問題,並討論專案的目標和解決方案的需求。
2. 定義分析方式
根據不同的商務問題,資料科學家會決定要遵循下列哪種分析方式:
- 可根據當前狀態取得更多資訊的描述性方式。
- 可了解情況和成因的診斷性方式。
- 可預測未來狀況的預測性方式。
- 可了解問題解決方法的規範性方式。
3. 取得資料
資料科學家會識別並取得所需資料來達成預期結果。這可能涉及查詢資料庫、從網站上擷取資料 (網頁抓取) 或從檔案中取得資料。這些資料可能可供內部使用,但小組也有可能需要購買該資料。在某些情況下,組織可能需要收集新的資料,才能成功執行專案。
4. 清理資料,也稱為資料洗滌
一般而言,這個步驟最為耗時。為了建立可用於模型化的資料集,資料科學家會將所有資料轉換成相同的格式、整理資料、移除不需要的部分,並取代所有遺失的資料。
5. 探索資料
資料清理乾淨後,資料科學家會探索資料,並使用統計分析技術來揭露資料特性之間的關係,以及與預測值 (也稱為標籤) 之間的統計關係。預測的標籤可以是量化值,例如某些事物的未來財務價值,或班機誤點的持續時間 (以分鐘為單位)。
探索及準備工作通常牽涉到大量的互動式資料分析和視覺化,這通常是在特地根據此工作所設計的互動式工具和環境中,使用 Python 和 R 等語言進行。用來探索資料的指令碼通常會裝載在特製環境中,例如 Jupyter Notebook。這些工具可讓資料科學家以程式設計方式探索資料,同時記錄及共用他們所發現的判讀結果。
6. 將資料模型化
資料科學家會建置並訓練規範性或描述性的模型,然後測試和評估該模型以確保它能回答問題或處理商務問題。簡單來說,模型是可接受輸入並產生輸出的一段程式碼。機器學習模型的建立作業涉及選取演算法、提供資料給演算法,以及調整超參數。超參數是可調整的參數,可讓資料科學家控制模型化訓練程序。例如,使用神經網路時,資料科學家可以決定隱藏層的數目和每個層級中的節點數目。超參數微調 (也稱為超參數最佳化) 是尋找可產生最佳效能之超參數設定的過程。
有個常見的問題:「我應該使用哪一種機器學習演算法?」 機器學習演算法能將資料集轉換為模型。資料科學家所選取的演算法主要取決於資料科學案例的兩個不同層面:
- 資料科學家學習過去的資料,是為了解決什麼業務問題?
- 資料科學案例的需求為何?(包括正確性、訓練時間、線性、參數數目和特徵數目)
為了協助回答這些問題,Azure Machine Learning 提供了完整的演算法組合,例如 多類別決策樹系、建議系統、神經網路迴歸、多元神經網路和 K-Means 叢集。每種演算法的設計都是用來處理不同類型的機器學習問題。除此之外,Azure Machine Learning 演算法速查表也可協助資料科學家選擇正確的演算法來回答業務問題。
7. 部署模型
資料科學家會提交最終模型與相關文件,並在經過測試之後,將最新的資料集部署到生產環境中,讓它在業務中扮演主動角色。已部署模型的預測可用於商業決策。
8. 視覺化並傳達結果
Microsoft Power BI、Tableau、Apache Superset 和 Metabase 這類視覺化工具可讓資料科學家輕鬆探索資料並產生美觀的視覺效果,這樣的結果呈現方式可讓非技術背景的受眾也能輕鬆理解。
資料科學家也可能會在資料擷取、探索、分析、視覺化和共同作業的大部分過程中,使用 Web 型資料科學筆記本,例如 Zeppelin Notebook。
資料科學方法
資料科學家會使用統計方法來發掘統計上的合理見解,這些方法包括假說測試、因素分析、迴歸分析和叢集化等等。
資料科學文件
雖然資料科學文件因專案和產業而異,它通常都包括可以呈現資料來源和模型化方法的文件。這可以協助資料小組的成員有效運用往後的資料。例如,可協助商務分析師使用視覺化工具來解讀資料集的文件。
資料科學文件類型包括:
- 專案計畫:用來定義專案的商務目標、評估指標、資源、時間軸和預算。
- 資料科學使用者故事:可產生資料科學專案的構想。資料科學家會從專案關係人的角度來撰寫故事,描述專案關係人想要達成的目標,以及專案關係人要求執行專案的原因。
- 資料科學模型文件:可記錄資料集、實驗設計和演算法。
- 支援系統文件:包括使用者指南、系統維護基礎結構文件,以及程式碼文件。
如何成為資料科學家
成為資料科學家有許多方法。門檻需求通常包括資訊技術或電腦科學的學位。不過,有些 IT 專業人員透過集訓和線上課程來學習資料科學,有些人則獲得了資料科學的碩士學位或認證。
若要學習當個資料科學家,您可善用這些專為您設計的 Microsoft 訓練資源來協助您:
- 快速入門。閱讀免費的 Packt 電子書《資料科學準則:統計技術與理論使用者指南》。您會學習到基本統計分析和機器學習、關鍵字詞,以及資料科學程序。
- 透過 Azure 這個 Microsoft 雲端平台來發展您的機器學習技術。探索適用於資料科學家的 Azure Machine Learning 資源,其中包括免費訓練影片、架構解決方案範例,以及客戶案例。
- 只需 4 週,就能在免費的 Azure 上學到各種機器學習專業知識。每天花費一小時學習如何為複雜的問題建立創新的解決方案。您會使用最新的工具和架構,從基礎知識一路學習到如何擴增機器學習專案。自學型化腐朽為神奇機器學習路徑也能讓您做好考取 Azure 資料科學家助理認證的準備。
- 取得全方位的訓練。踏上 Microsoft 資料科學家學習路徑,並選擇各種自學型和導學型課程。了解如何建立機器學習模型、使用視覺化工具、在雲端執行資料科學工作負載,並建置可支援自然語言處理的應用程式。
資料科學家認證
認證是展示資料科學資格並快速發展事業的絕佳方式。具備 Microsoft 認證的專業人員供不應求,而且現在就有許多提供給 Azure 資料科學家的工作。探索最受雇主歡迎的資料科學家認證:
- Microsoft 認證:Azure 資料科學家助理。運用資料科學和機器學習的知識,並透過 Azure Machine Learning 服務,在 Azure 上實作並執行機器學習工作負載。
- Microsoft 認證:客戶資料平台專家。實作可提供客戶個人檔案深入解析並追蹤互動活動的解決方案,藉此改善客戶體驗並增加客戶黏著度。
資料分析師和資料科學家的不同
就像資料科學家一樣,資料分析師也會處理大型資料集並揭露資料中的趨勢。不過,資料科學家通常是技術能力較強的小組成員,擁有更多專業知識和責任,比方說,他們會發起並主導資料科學專案、建置與訓練資料學習模型,然後把結果呈現給執行長或在會議中展示他們的結果。部分資料科學家會執行所有的工作,而部分科學家則會專注執行特定項目,例如訓練演算法或建置模型。許多資料科學家會以資料分析師的身分做為職涯開端,而資料分析師可在工作幾年後晉升為資料科學家。
資料科學家與資料分析師
資料分析師 | 資料科學家 | |
---|---|---|
角色 | 統計資料分析 | 根據複雜的商務需求,以巨量資料開發解決方案 |
一般工具 | Microsoft Excel、SQL、Tableau、Power BI | SQL、Python、R、Julia、Hadoop、Apache Spark、SAS、Tableau、Machine Learning、Apache Superset、Power BI、Data Science Notebooks |
資料類型的分析 | 結構化資料 | 結構化和非結構化資料 |
工作和職責 |
|
|
資料科學的常見問題集
-
資料科學家要負責在巨量資料中採礦以擷取有價值的資訊。組織會使用這類資訊來改善做出決策、解決問題和最佳化營運的方法。
-
資料科學是資料的研究,可用來獲取知識。它結合了多個科學專業領域,可從巨型資料集中擷取知識,協助您做出明智的決策和預測。
-
資料科學家會主導研究專案以從巨量資料中擷取有價值的資訊和可採取動作的深入解析。這包括定義要解決的問題、撰寫查詢以在資料庫中提取正確資料、清理並排序資料、建置和訓練機器學習模型,以及使用資料視覺化工具向專案關係人有效傳達結果。
-
雖然資料科學文件因專案和產業而異,它通常都包括專案計畫、使用者故事、模型文件和支援系統文件,例如使用者指南。
-
有些 IT 專業人員學習資料科學的方式是獲得資料科學的碩士學位或認證,或者是透過集訓和線上課程來學習。認證是展示資料科學資格並快速發展事業的絕佳方式。具備 Microsoft 認證的專業人員供不應求,而且現在就有許多提供給 Azure 資料科學家的工作。
-
資料分析師和資料科學家都會處理大型資料集並揭露資料中的趨勢。不過,由於資料科學家會發起研究專案,他們通常擁有更多技術專業知識和責任。舉例來說,資料分析師可能會被要求完成統計資料分析,而資料科學家可能會被要求進行巨量資料採礦以根據複雜業務需求開發解決方案。
-
資料科學專案會因產業和組織需求而異。舉例來說,在商業環境中,資料科學家主導的研究專案可能是要了解如何改善客戶服務體驗。需要的資料除了網站和交易指標等結構化資料之外,也包括使用者評論和客戶服務小組筆記等非結構化資料。所有不同資料來源的詳細分析會產生深入解析,可協助說明對現有程序的建議變更。
-
在業界,最常見的資料科學目標就是改善組織的運作方式。分析各種組織資料後所獲得的深入解析可共同解決現有的困境,或產生新的企業營運構想。
-
是,不過資料科學家的程式撰寫熟練程度可能不必與程式設計人員相同。資料科學家可能會使用 Julia、R 或 Python 等程式設計語言來撰寫查詢。Python 也相當熱門,因為它在學習和使用上相對簡單。
-
要成為資料科學角色的條件可能有所不同,但通常都包括下列其中一項:
- 資訊技術或電腦科學的學位。
- 完成資料科學集訓或線上課程。
- 資料科學碩士或認證。
Microsoft 提供了各種訓練資源和學習路徑,可幫助您入門成為資料科學家。
開始使用 Azure 免費帳戶
免費享有 12 個月的熱門 Azure 服務、超過 55 個一律免費的服務,並可在前 30 天內使用 200 美元的點數。
與 Azure AI 銷售專家連絡
取得開始使用 Azure AI 的建議。提出問題、了解定價與最佳做法,並取得協助以設計符合您需求的解決方案。