什麼是資料科學?
資料科學是一項資料的多領域科學研究,目的是為了擷取重要資料及可採取動作的見解。
什麼是資料科學家?
資料科學家會帶領研究專案從巨量資料中擷取寶貴的資訊,並擅長技術、數學、商業和通訊。組織使用此資訊來做出更好的決策、解決複雜的問題,以及改善其作業。透過揭露隱藏在大型資料集中可轉化成動作的見解,資料科學家可以大幅改善公司達成其目標的能力。因此,資料科學家在商業世界中處於高度需求甚至被視為「搖滾巨星」。
資料科學定義
資料科學是用來獲得知識的科學資料研究。此領域結合多個專業,以從大量資料集擷取知識,以利於做出決策和預測。資料科學家、資料分析師、資料架構師、資料工程師、統計資料員、資料庫管理員和商務分析師都可在資料科學領域中工作。
隨著資料量呈指數級增加,以及公司更加依賴分析來推動收入和創新,對資料科學的需求正在迅速成長。。例如,隨著商務互動變得數位化、建立更多資料、提供新的機會,以衍生見解來了解如何改善個人化體驗、改善服務與客戶滿意度、開發全新和增強的產品,以及增加銷售量。此外,在商業世界和其他地方,資料科學有潛力協助解決一些世界最困難的挑戰。
資料科學家的工作為何?
資料科學家會收集、分析及解釋巨量資料,以發現模式和見解、進行預測,以及建立可採取動作的計畫。巨量資料可以定義為比先前用來處理資料管理方法具有更多種類、數量及速度的資料集。資料科學家使用多種類型的巨量資料,包括:
- 結構化資料,通常以列與欄組織,並包含文字和數字,例如名稱、日期和信用卡資訊。例如,公用事業中的資料科學家可能會分析發電和用電量資料的資料表,以協助降低成本並偵測可能導致設備故障的模式。
- 非結構化資料,其非結構化且包括文件檔案、社交媒體和行動資料、網站內容和影片中的文字。例如,零售業的資料科學家可能會透過分析非結構化的客服中心筆記、電子郵件、問卷和社交媒體文章,回答改善客戶體驗的問題。
此外,資料集的特性也可以描述為量化、結構化數值資料,或是質化或類別資料,這些資料不會透過數值表示,且可依據類別分組。資料科學家必須知道他們使用的資料類型,因為這會直接影響他們所執行的分析類型,以及可用來視覺化資料的圖形類型。
若要從這些資料類型中獲得知識,資料科學家會利用下列技能:
- 電腦程式設計。資料科學家使用 Julia、R 或 Python 等語言來撰寫查詢,以從其公司的資料庫提取資料。Python 是許多資料科學家選擇的語言,因為即使沒有程式撰寫經驗的人員也非常容易學習及使用,而且提供預先建置的資料科學模組供資料分析之用。
- 數學、統計資料和機率。資料科學家會使用這些技能來分析資料、測試假設,以及建立機器學習模型—資料科學家訓練以辨識特定模式類型的檔案。資料科學家使用已訓練的機器學習模型來探索資料中的關係、對資料進行預測,以及找出問題的解決方案。資料科學家也可以利用自動化機器學習,來存取生產環境就緒的機器學習模型,而非從頭開始建立及訓練模型。
- 網域知識。為了將資料轉化成可推動業務成果的相關和有意義的見解,資料科學家也需要網域知識—了解他們工作的產業和公司。以下是資料科學家如何套用其網域知識以解決產業特定問題的一些範例。
資料科學專案的類型
產業 | 資料科學專案的類型 |
---|---|
商務 |
新產品開發和產品增強
供應鏈與庫存管理 客戶服務改善 對電子商務客戶提供產品建議 |
娛樂 |
了解媒體內容使用模式
根據目標市場資料進行內容開發 內容效能測量 根據使用者喜好設定的自訂建議 |
金融與銀行業 |
防止詐騙及其他安全性漏洞
投資組合的風險管理 協助客戶解決問題的虛擬助理 |
政府 |
原則決策
選民滿意度監視 詐騙偵測,例如社會傷殘賠償 |
醫療保健 |
實證藥物治療和新藥的成本效益
即時追蹤疫情爆發 穿戴式追蹤器以改善病患照護 |
電信 |
根據使用者喜好設定和位置改善服務
將中斷通訊和其他服務問題最小化 |
公用事業 |
智慧電表分析,以改善公用事業使用率與客戶滿意度
改善資產與員工管理 |
有另一個技能對「資料科學家的工作為何?」問題非常重要。將分析結果有效傳達給經理、主管和其他專案關係人,是工作最重要的部分之一。資料科學家需要讓非技術受眾更容易理解其結果,以便他們使用見解來做出決策。因此,資料科學家必須精通:
- 表達能力、公開演講和資料視覺效果。優秀的資料科學家具有強大的語言溝通技巧,包括故事分享和公開演講。在資料科學領域中,一張圖抵得上千言萬語。使用圖形和圖表來展示資料科學結果,可讓觀眾在 5 秒或更短的時間內快速理解資料。因為這個原因,成功的資料科學家會非常重視資料視覺效果,就像他們的分析一樣。
資料科學流程
資料科學家會遵循類似的流程來完成其專案:
-
定義商務問題
資料科學家與專案關係人合作,明確定義要解決的問題或需要回答的問題,以及專案的目標和解決方案需求。
-
定義分析方法
資料科學家根據商務問題決定要遵循的分析方法:
- 關於目前狀態詳細資訊的描述。
- 診斷以了解發生的情況和原因。
- 預測將會發生什麼事。
- 了解如何解決問題的規範。
-
取得資料
資料科學家識別並擷取達到預期結果所需的資料。這可能包括查詢資料庫、從網站擷取資訊 (網頁抓取),或從檔案取得資料。資料可能在內部可用,或小組可能需要購買資料。在某些情況下,組織可能需要收集新資料,才能成功執行專案。
-
清理資料,也稱為清除
通常,此步驟最耗時。若要建立模型化的資料集,資料科學家會將所有資料轉換成相同的格式、組織資料、移除不需要的資料,並取代任何遺漏的資料。
-
探索資料
清除資料之後,資料科學家會探索資料,並應用統計分析技術來顯示資料特徵及其預測值 (稱為標籤) 之間的統計關係。預測的標籤可以是量化值,例如未來某項目的財務數值,或航班延遲的持續時間 (分鐘)。
探索和準備通常涉及大量的互動式資料分析和視覺效果,通常會在專為這項工作設計的互動式工具和環境中使用 Python 和 R 等語言。用來探索資料的指令碼通常託管於特殊環境中,例如 Jupyter 筆記本。這些工具可讓資料科學家以程式設計方式探索資料,同時記錄及共用他們找到的見解。
-
為資料建立模型
資料科學家會建置並訓練規範性或描述性的模型,然後測試並評估模型,以確定它能回答問題或解決商務問題。模型最簡單就是一段採用輸入並產生輸出的程式碼。建立機器學習模型包括選取演算法、提供資料,以及微調超參數。超參數是可調整的參數,可讓資料科學家控制模型訓練流程。例如,使用神經網路時,資料科學家會決定每個圖層的隱藏圖層數目和節點數目。超參數微調也稱為超參數最佳化,是尋找導致最佳效能之超參數設定的流程。
常見問題為「我應該使用哪一種機器學習演算法?」機器學習演算法會將資料集轉換成模型。資料科學家選取的演算法主要取決於資料科學案例的兩個不同層面:
- 資料科學家想要透過學習過去的資料來回答哪些商務問題?
- 資料科學案例的需求為何,包括正確性、訓練時間、線性、參數數目及功能數目?
若要協助回答這些問題,Azure Machine Learning 提供完整的演算法組合,例如多類別決策樹系、建議系統、類神經網路迴歸、多類別類神經網路,以及 K-Means 叢集。每個演算法都是設計用來解決不同類型的機器學習問題。此外,Azure Machine Learning 演算法速查表協助資料科學家選擇正確的演算法來回答商務問題。
-
部署模型
資料科學家在測試後提供最終模型與文件,並將新資料集部署到生產環境中,以便在企業中扮演作用中的角色。來自已部署模型的預測可用於商務決策。
-
以視覺化呈現並溝通結果
Microsoft Power BI、Tableau、Apache Superset 和 Metabase 等視覺效果工具,可讓資料科學家輕鬆探索資料並產生精美的視覺效果,以便於非技術受眾理解的方式展示結果。
資料科學家在進行資料擷取、探索、分析、視覺效果及共同作業的過程中,也可能會使用網頁型資料科學筆記本,例如 Zeppelin Notebook。
資料科學方法
資料科學家使用假設測試、因數分析、迴歸分析和叢集等統計方法來挖掘統計上合理的見解。
資料科學文件
雖然資料科學文件會依專案和產業而有所不同,但通常會包含顯示資料來源及修改方式的文件。這可協助資料小組的其他成員有效地使用資料繼續進展。例如,文件可協助商務分析師使用視覺效果工具來解釋資料集。
資料科學文件的類型包括:
- 專案計劃以定義專案的商務目標、評估計量、資源、時間表和預算。
- 資料科學使用者故事產生資料科學專案的想法。資料科學家從專案關係人的角度撰寫故事,描述專案關係人想要達到什麼目標,以及專案關係人要求專案的原因。
- 資料科學模型文件記錄資料集、實驗的設計和演算法。
- 支援系統文件包括使用者指南、用於系統維護的基礎結構文件和程式碼文件。
如何成為資料科學家?
有多個路徑可以成為資料科學家。需求通常包含資訊技術或電腦科學的學位。然而,某些 IT 專業人員藉由參加訓練營和線上課程來學習資料科學,其他人則可獲得資料科學專家的學位或認證。
若要了解如何成為資料科學家,請善用這些專為協助您而設計的 Microsoft 訓練資源:
- 快速開始。閱讀免費的 Packt 電子書資料科學原則,統計技術與理論的初學者指南。您將學習統計分析和機器學習的基本概念、重要詞彙和資料科學流程。
- 使用 Microsoft 雲端平台 Azure 建置您的機器學習技能。探索適用於資料科學家的 Azure 機器學習資源,包括免費訓練影片、範例解決方案架構和客戶故事。
- 在 Azure 上免費達成機器學習專長,只需 4 週。花一天一小時的時間了解如何為複雜問題建立創新的解決方案。您將全面了解基本概要,以使用最新的工具和架構調整機器學習專案規模。自學型零到開始的學習路徑也會為 Azure 資料科學家助理認證做好準備。
- 取得全方位訓練。取得 Microsoft 資料科學家學習路徑,並選擇一系列自學型和指導型課程。了解如何建立機器學習模型、使用視覺效果工具、在雲端執行資料科學工作負載,以及建置支援自然語言處理的應用程式。
資料科學家認證
認證是展示您資料科學資格並開始工作的好方法。Microsoft 認證的專業人員具有高度需求,目前已有適用於 Azure 資料科學家的工作。探索最受雇主追尋的資料科學家認證:
- Microsoft 認證: Azure 資料科學家助理。運用您對資料科學和機器學習的知識,在 Azure 上使用 Azure Machine Learning 服務來實作及執行機器學習工作負載。
- Microsoft 認證: 客戶資料平台專業。實作解決方案,提供客戶設定檔的見解,並追蹤參與活動,以協助改善客戶體驗及增加客戶保留率。
資料分析師與資料科學家之間的差異
與資料科學家一樣,資料分析師會使用大型資料集來發現資料的趨勢。不過,資料科學家通常是更多具有更多專業知識與責任的技術小組成員,例如起始及領導資料科學專案、建置及訓練機器學習模型,以及向主管和會議展示結果。有些資料科學家執行所有這些工作,而有些資料科學家則專注於特定工作,例如訓練演算法或建立模型。許多資料科學家的職業生涯開始於資料分析師,資料分析師可以在幾年內升遷為資料科學家職位。
資料科學家與資料分析師
資料分析師 | 資料科學家 | |
---|---|---|
角色 | 統計資料分析 | 使用巨量資料開發複雜商務需求的解決方案 |
一般工具 | Microsoft Excel、SQL、Tableau、Power BI | SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, 機器學習, Apache Superset, Power BI, 資料科學筆記本 |
資料類型的分析 | 結構化資料 | 結構化和非結構化資料 |
工作和職責 |
|
|
其他資源
關於資料科學的常見問題
-
資料科學家負責採礦巨量資料以擷取有價值的資訊。組織使用此資訊來改善其決策方式、解決問題及最佳化作業。
-
資料科學是用來學習資料的研究。它結合各種科學專業,從大量資料集擷取知識,以協助做出決策和預測。.
-
資料科學家會引導研究專案,從巨量資料擷取有價值資訊和可轉化成動作的見解。這包括定義要解決的問題、撰寫查詢以從資料庫提取正確資料、清理及排序資料、建置及訓練機器學習模型,以及使用資料視覺效果技術有效地將結果傳達給專案關係人。
-
雖然資料科學文件會依專案和產業而有所不同,但通常包括專案計劃、使用者故事、模型文件及支援系統文件,例如使用者指南。
-
某些 IT 專業人員透過獲得資料科學專家的學位或認證,或者參加集訓和線上課程來學習資料科學。認證是展示您的資料科學資格並開始工作的好方法。Microsoft 認證的專業人員有高度需求,目前已有適用於 Azure 資料科學家的工作。
-
資料分析師和資料科學家都使用大型資料集來發現資料的趨勢。不過,資料科學家在起始其研究專案時,通常會有更多技術專長和職責。例如,可能會要求資料分析師完成統計資料分析,但可能會要求資料科學家透過採礦巨量資料來開發複雜業務需求的解決方案。
-
資料科學專案因產業和組織需求而異。例如,在商業環境中,資料科學家可能會引導研究專案,了解如何改善客戶服務體驗。所需的資料不只包含結構化資料 (例如網站和交易計量),也包含非結構化資料 (例如客戶服務小組的使用者評論和記事)。所有這些不同資料來源的詳細分析會產生見解,有助於為目前流程的建議變更提供資訊。
-
在商務中,資料科學最常見的目標是改善組織運作方式。一起分析豐富的組織資料所獲得見解可協助解決現有的挑戰,或產生新商務方式的構想。
-
是的,但資料科學家可能不需要具有與程式設計師相同的程式設計能力。資料科學家可能會使用像是 Julia、R 或 Python 等程式設計語言來撰寫查詢。Python 也很熱門,因為它相對容易學習及使用。
-
資料科學角色需求可能會有所不同, 但它們通常包含至少下列其中一個:
- 資訊技術或電腦系統的學位。
- 資料科學集訓或線上課程。
- 資料科學碩士學位或認證。.
Microsoft 提供各種訓練資源和學習路徑,讓您開始成為資料科學家。