略過導覽

什麼是資料湖?

查看資料湖與資料倉儲和資料湖存放庫的差異。探索如何使用 Azure 為您的所有分析建立可調整的基礎。

什麼是資料湖?

此簡介指南會探索資料湖的多種優點和使用案例。了解資料湖是什麼、它為何重要,以及它與資料倉儲或資料湖存放庫的差異。但首先,讓我們將資料湖定義為一個字詞。

資料湖是集中式存放庫,以原始格式內嵌及儲存大量資料。然後可以處理資料,並做為各種分析需求的基礎使用。由於開放式且可調整的架構,資料湖可以容納來自任何來源的所有資料類型,從結構化 (資料庫資料表、Excel 工作表) 至半結構化 (XML 檔案、網頁) 和非結構化(影像、音訊檔案、推文) 等所有資料,而不會破壞逼真度。資料檔案通常儲存在暫存區域中—未經處理、已清理及已策劃—因此不同類型的使用者可以使用其各種表單中的資料來滿足其需求。資料湖提供各種應用程式的核心資料一致性、強大的巨量資料分析、機器學習、預測性分析及其他形式的智慧型動作。

資料湖重要嗎?

如果沒有資料湖解決方案的出現,今天的高度連結、深入解析驅動的世界將無法實現。這是因為組織依賴如 Azure Data Lake 等全方位的資料湖平台,來保持未經處理資料的合併、整合、安全且可存取。Azure Data Lake Storage 等可調整的儲存工具可將資料保留和保護在中央位置,並以最佳成本消除孤島。這會為使用者執行各種工作負載類別打下基礎,例如巨量資料處理、SQL 查詢、文字採礦、串流分析及機器學習。資料可用來摘要上游資料視覺效果和隨選報表需求。像是 Azure Synapse Analytics 的新式端對端資料平台,可解決以資料湖為中心的巨量資料架構完整需求。

資料湖使用案例

使用設計良好的解決方案,創新的潛能就是無盡的。以下是一些範例,說明各種產業中的組織如何使用資料湖平台來最佳化其成長:

  • 串流媒體。訂閱型串流公司會收集並處理客戶行為的深入解析,並使用這些資訊來改善其建議演算法。
  • 財務。投資必須使用已收集和即時儲存的最新市場資料,以有效管理投資組合風險。
  • 醫療保健。醫療保健組織依賴巨量資料來改善病患的照護品質。醫院使用大量的歷程記錄資料來簡化病患療程,以產生更好的結果,並降低照護成本。
  • 全通路零售商。零售商使用資料湖來擷取和合併來自多個觸控點的資料,包括行動裝置、社交、聊天、口耳傳播,以及面對面。
  • IoT。硬體感應器會在周圍的實體世界產生大量的半結構化和非結構化資料。資料湖提供一個中央存放庫,讓這項資訊可以用於未來的分析。
  • 數位供應鏈。 資料湖有助於製造商合併不同的倉儲資料,包括 EDI 系統、XML 和 JSON。
  • 銷售。資料科學家和銷售工程師通常會建立預測性模型,以協助判斷客戶行為並減少整體流失。

資料湖與資料倉儲

您現在知道資料湖是什麼、它為何重要,以及它在各種組織中的使用方式。但資料湖與資料倉儲有何不同? 以及兩者適合使用的時機?

儘管資料湖和資料倉儲的相似之處在於都能儲存和處理資料,兩者都有自己的專長,而且有自己的使用案例。因此,企業層級組織經常在其分析生態系統中包含資料湖和資料倉儲。兩個存放庫一起合作,以形成安全的端對端系統,以用於儲存、處理及加快見解時間。

資料湖會從各種來源擷取關聯式和非關聯式資料—商務應用程式、行動應用程式、IoT 裝置、社交媒體或串流,而不需要定義資料的結構或結構描述,直到讀取為止。Schema-on-read 可確保任何類型的資料都可以儲存在其原始表單中。因此,資料湖可以隨時保存各種資料類型,從結構化到半結構化或非結構化。其彈性且可調整的特性,使其對於使用不同類型的計算處理工具,例如 Apache SparkAzure Machine Learning 來執行複雜資料分析而言非常重要。

相反地,資料倉儲在本質上是關聯式。結構或結構描述是由已針對 SQL 查詢作業策劃、符合及最佳化的商務和產品需求,建立模型或預先定義。當資料湖存放所有結構類型的資料,包括原始和未處理的資料時,資料倉儲會儲存已處理及轉換且具有特定用途的資料,進而可用於來源分析或作業報告。這會讓資料倉儲更適合用於產生更標準化的 BI 分析形式,或服務已定義的商業用途案例。

無法使用 資料湖 資料倉儲
類型 結構化, 半結構化, 非結構化 結構化
無法使用 關聯式, 非關聯式 關聯式
結構描述 Schema on read Schema on write
格式 未經處理, 未篩選 已處理, 已審查
來源 巨量資料, IoT, 社交媒體, 串流資料 應用程式, 商務, 交易式資料, 批次報告
可擴縮性 以低成本輕鬆調整 難以調整且昂貴
使用者 資料科學家, 資料工程師 資料倉儲專業人員, 商務分析師
使用案例 機器學習, 預測性分析, 即時分析 核心報表, BI

什麼是資料湖存放庫?

現在您知道資料湖與資料倉儲之間的差異。但資料湖與資料湖存放庫有何不同? 這兩者是否需要同時擁有?

儘管傳統資料湖有許多優點,但並非沒有缺點。因為資料湖可以容納各種來源的所有資料類型,所以可能會發生品質控制、資料損毀和不當分割等相關問題。管理不良的資料湖不僅會損害資料完整性,而且也會造成瓶頸、效能緩慢及安全性風險。

這是資料湖存放庫發揮作用之處。資料湖存放庫是一種開放標準式儲存解決方案,在本質上多面性。它可以處理執行深度資料分析與處理的資料科學家和工程師之需求,以及為商業智慧和報告目的策展及發佈資料的傳統資料倉儲專業人員之需求。Data Lakehouse 的美妙之處在於,每個工作負載都能在資料湖上順暢地運作,而不需要將資料複製到另一個結構化預先定義的資料庫。這可確保每個人都在使用最新的資料,同時減少冗餘。

資料湖存放庫透過直接在雲端資料湖之上新增 資料湖儲存層,以解決傳統資料湖的挑戰。儲存層提供彈性的分析架構,可處理 ATOMIC (不可部分完成性、一致性、隔離性和耐用性) 交易,以取得資料可靠性、串流整合,以及資料版本設定和結構描述強制等進階功能。這允許在資料湖上進行一系列的分析活動,而不影響核心資料一致性。雖然湖存放庫的任務取決於您的需求有多複雜,但其彈性與範圍使其成為許多企業組織的最佳解決方案。

無法使用 資料湖 資料湖存放庫
類型 結構化, 半結構化, 非結構化 結構化, 半結構化, 非結構化
無法使用 關聯式, 非關聯式 關聯式, 非關聯式
結構描述 Schema on read Schema on read, Schema on write
格式 未經處理, 未篩選, 已處理, 已策劃 未經處理, 未篩選, 已處理, 已策劃, 差異格式檔案
來源 巨量資料, IoT, 社交媒體, 串流資料 巨量資料, IoT, 社交媒體, 串流資料, 應用程式, 商務, 交易式資料, 批次報告
可擴縮性 以低成本輕鬆調整 以低成本輕鬆調整
使用者 資料科學家 商務分析師, 資料工程師, 資料科學家
使用案例 機器學習, 預測性分析 核心報表, BI, 機器學習, 預測性分析

什麼是資料湖結構?

資料湖的核心是儲存體存放庫,沒有其本身的集合架構。為了充分利用其功能,它需要各種工具、技術和計算引擎,協助最佳化整合、儲存及處理資料。這些工具會共同建立一個有凝聚力地階層式架構,這個架構會由巨量資料提供資訊,並且會在資料湖之上執行。此架構也可能形成資料湖存放庫的作業結構。每個組織都有其專屬的設定,但大多數資料湖存放庫架構的功能如下:

  • 資源管理與協調流程。資源管理員可讓資料湖一致地執行工作,將正確的資料量、資源和計算能力配置至正確的位置。
  • 方便存取的連接器。各種工作流程可讓使用者輕鬆存取及共用所需的資料。
  • 可靠的分析。良好的分析服務應該快速、可調整且分散式。它也應該支援多種語言的工作負載類別範圍。
  • 資料分類。資料分析、目錄及封存可協助組織追蹤資料內容、品質、位置及歷程記錄。
  • 擷取、載入、轉換 (ELT) 流程。 ELT 指的是從多個來源擷取資料並載入資料湖原始區域的流程,然後在擷取之後加以清除和轉換,讓應用程式隨時使用。
  • 安全性與支援。遮罩、稽核、加密及存取監視等資料保護工具可確保您的資料保持安全且私密。
  • 治理與管理。若要讓資料湖平台盡可能順暢地執行,使用者應了解其架構設定,以及資料與作業管理的最佳做法。

常見問題集

  • 資料湖是集中式存放庫,可內嵌、儲存並允許以原始格式處理大量資料。它可以容納所有類型的資料,進而用來提供巨量資料分析、機器學習及其他形式的智慧型動作。

    深入了解資料湖

  • 資料湖會儲存所有類型的未經處理資料,資料科學家可能會使用這些未經處理資料來進行各種專案。資料倉儲存放區已清除及已處理的資料,這些資料可用於來源分析或作業報告,以及特定 BI 使用案例。

    探索資料湖與資料倉儲

  • 資料湖存放庫結合了資料湖和資料倉儲的元素,形成彈性的端對端解決方案,以供資料科學及商業智慧之用。

    深入了解資料湖存放庫

  • 絕對。所有產業的主要組織都依賴儲存在資料湖中的大量資料,來推動智慧型動作、獲得見解及成長。

    探索資料湖的好處

  • 資料湖結構是指工具和技術的特定設定,可協助將資料從資料湖整合、可存取、有組織且安全保存在一起。

    探索資料湖架構的最佳做法

開始使用 Azure 免費帳戶

免費享受熱門分析服務 12 個月,超過 25 項服務終身免費,並在前 30 天提供 和 $200 點點數以供您使用。

與 Azure 銷售專家連絡

取得開始使用 Azure 中分析的建議。提出問題、了解價格和最佳做法,並取得協助以設計滿足您需求的解決方案。