資料湖是什麼?
了解資料湖與資料倉儲的差異。了解如何使用 Azure 建立可調整的基礎,以用於所有分析。
資料湖定義
本簡介指南探索資料湖的許多優點和使用案例。了解什麼是資料湖、為何重要,並探索資料湖與資料倉儲的差異。但首先,讓我們將資料湖定義為一個術語。
資料湖是集中式存放庫,會以其原始形式擷取並儲存大量的資料。資料接著可以被處理,並做為各種分析需求的基礎。由於資料湖是開放且可調整的架構,因此可以容納來自任何來源的所有類型的資料,從結構化 (資料庫資料表、Excel 工作表) 到半結構化 (XML 檔案、網頁) 到非結構化 (影像、音訊檔案、推文),全部都不需要犧牲精確度。資料檔案通常儲存在階段性區域 (原始、清理和策展) 中,讓不同類型的使用者可能會使用其各種形式的資料,以滿足其需求。資料湖提供各種應用程式的核心資料一致性,支援 巨量資料分析, 機器學習、預測分析,以及其他形式的智慧型動作。
為什麼資料湖對於企業很重要?
沒有資料湖解決方案的出現,現今高度連接、見解導向的世界將無法實現。這是因為組織依賴完整的資料湖平台 (例如 Azure Data Lake) 來保存合併、整合、安全且易於存取的未經處理資料。可調整的儲存體工具 (例如 Azure Data Lake Storage) 可以在一個集中位置保留和保護資料,以最佳成本消除孤立狀態。這為使用者執行各種工作負載類別打下基礎,例如巨量資料處理、SQL 查詢、文字採礦、串流分析及機器學習。接著,資料可用來提供上游資料視覺效果和臨時報告需求。現代化端對端資料平台 (例如 Azure Synapse Analytics) 可解決以資料湖為中心的巨量資料架構完整需求。
資料湖使用案例
有了架構良好的解決方案,創新的可能性是無限的。以下只是一些範例,說明各種產業中的組織如何使用資料湖平台來最佳化其成長:
- 串流媒體。 訂閱型串流公司會收集並處理客戶行為的見解,他們可能會使用這些見解來改善其建議演算法。
- 財務。 投資公司會使用最新的市場資料 (即時收集並儲存) 來有效率地管理投資組合風險。
- 醫療保健業。 醫療保健組織依賴巨量資料來改善病患的照護品質。醫院會使用大量的歷史資料來簡化病患路徑,以產生更好的結果,並減少照護成本。
- 全通路零售商。 零售商會使用資料湖來擷取和合併來自多個觸控點的資料,包括行動、社交、聊天、口耳相傳及面對面。
- IoT。 硬體感應器在周圍的實體世界產生大量的半結構化非結構化資料。資料湖提供一個中央存放庫,讓此資訊供日後分析使用。
- 數位供應鏈。 資料湖可協助製造商合併不同的倉儲資料,包括 EDI 系統、XML 和 JSON。
- 銷售。 資料收集與銷售工程師通常會建立預測模型,協助判斷客戶行為並減少整體流失。
資料湖與資料倉儲的比較
現在,您了解什麼是資料湖、為何重要,以及它如何用於各種組織。但資料倉儲與資料湖之間有什麼不同? 資料倉儲或資料湖的使用時機為何?
雖然資料湖和 資料倉儲 在儲存及處理資料方面很類似,但各有各自的特色,因此有自己的使用案例。這就是企業層級組織在其分析生態系統中納入資料湖和資料倉儲的常見原因。這兩個存放庫可同時運作,以形成安全的端對端系統,以用於儲存、處理及加快見解的時間。
資料湖會從各種來源 (商務應用程式、行動應用程式、IoT 裝置、社交媒體或串流) 擷取關聯式和非關聯式資料,而不需要定義資料的結構或結構描述,直到資料被讀取。讀取時結構描述可確保任何類型的資料都可以以其原始格式儲存。因此,資料湖可以保留各種不同的資料類型,從結構化到半結構化到非結構化,任何規模。其彈性和可調整特性,使得它們對於使用不同類型的計算處理工具 (例如 Apache Spark 或 Azure Machine Learning) 執行複雜形式的資料分析而言非常重要。
相反地,資料倉儲本質上是關聯式的。結構或結構描述是由針對 SQL 查詢作業策展、符合及最佳化的企業和產品需求所建立或預先定義。雖然資料湖會保留所有結構類型的資料,包括原始資料和未處理的資料,但資料倉儲會儲存已處理和已轉換並考慮特定用途的資料,然後可用於來源分析或作業報告。這會使資料倉儲很適合用於產生更標準化的 BI 分析形式,或服務已定義的商務使用案例。
資料湖 | 資料倉儲 | |
---|---|---|
類型 | 結構化、半結構化、非結構化 | 結構化 |
關聯式、非關聯式 | 關聯式 | |
結構描述 | 讀取時結構描述 | 寫入時結構描述 |
格式 | 原始、未篩選的 | 已處理、經過審查 |
來源 | 巨量資料、IoT、社交媒體、串流資料 | 應用程式、商務、交易資料、批次報告 |
可擴縮性 | 以低成本輕鬆地調整 | 難以擴縮且昂貴 |
使用者人數 | 資料科學家、資料工程師 | 資料倉儲專業人員、商務分析師 |
使用案例 | 機器學習、預測性分析、即時分析 | 核心報告、BI |
資料湖與資料湖存放庫
現在您了解資料湖與資料倉儲之間的差異。但資料湖與資料湖存放庫之間有什麼不同? 這兩者是否必須同時使用?
傳統資料湖雖然有許多優點,但並非沒有缺點。由於資料湖可以容納來自各種來源的所有類型的資料,因此可能會發生與品質控制、資料損毀和不當分割相關的問題。管理不良的資料湖不僅會損害資料完整性,也可能導致瓶頸、緩慢的效能和安全性風險。
這就是資料湖存放庫發揮作用之處。資料湖存放庫是一種開放標準型儲存解決方案,本質上是多方面的。它可解決執行深度資料分析和處理的資料科學家和工程師需求,以及針對商業智慧和報告目的來策展和發佈資料的傳統資料倉儲專業人員需求。資料湖存放庫的美感是,每個工作負載都可以順暢地在資料湖上運作,而不需要將資料複製到另一個結構化預先定義的 資料庫。這可確保每個人都在處理最新的資料,同時減少備援。
資料湖存放庫直接在雲端資料湖上方新增 Delta Lake 儲存體層 ,以解決傳統資料湖的挑戰。儲存層提供彈性的分析架構,可處理資料可靠性、串流整合以及進階功能 (例如資料版本和結構描述強制執行) 的 ATOMIC (不可部分完成、一致性、隔離和持久性) 交易。這可讓您在湖上執行一系列的分析活動,而不影響核心資料一致性。雖然資料湖存放庫的需求取決於您的需求有多複雜,但它的彈性和範圍是許多企業組織的最佳解決方案。
資料湖 | 資料湖存放庫 | |
---|---|---|
類型 | 結構化、半結構化、非結構化 | 結構化、半結構化、非結構化 |
關聯式、非關聯式 | 關聯式、非關聯式 | |
結構描述 | 讀取時結構描述 | 讀取時結構描述,寫入時結構描述 |
格式 | 原始、未篩選、已處理、策展 | 原始、未篩選、已處理、策展、差異格式檔案 |
來源 | 巨量資料、IoT、社交媒體、串流資料 | 巨量資料、IoT、社交媒體、串流資料、應用程式、商務、交易資料、批次報告 |
可擴縮性 | 以低成本輕鬆地調整 | 以低成本輕鬆地調整 |
使用者人數 | 資料科學家 | 商務分析師、資料工程師、資料分析師 |
使用案例 | 機器學習、預測性分析 | 核心報告、BI、機器學習、預測性分析 |
什麼是資料湖架構?
在其核心,資料湖是一個儲存體存放庫,沒有自己的設定架構。為了充分利用其功能,它需要各種工具、技術和計算引擎,協助最佳化資料的整合、儲存和處理。這些工具共同合作以建立一個統一的分層架構,一種由巨量資料所通知且在資料湖上執行的架構。此架構也可能構成資料湖存放庫的操作結構。每個組織都有自己獨特的設定,但大部分的資料湖存放庫架構功能如下:
- 資源管理與協調流程。 資源管理員可讓資料湖一致地執行工作,將正確的資料、資源和運算能力配置至正確的位置。
- 易於存取的連接器。 各種工作流程可讓使用者以所需的格式輕鬆存取及共用所需的資料。
- 可靠的分析。 良好的分析服務應該快速、可調整且分散。它也應該支援多種語言的各種工作負載類別。
- 資料分類。 資料分析、編目和封存可協助組織追蹤資料內容、品質、位置和歷程記錄。
- 擷取、載入、轉換 (ELT) 程序。 ELT 是一種程序,資料會從多個來源進行擷取,並載入資料湖的原始區域,然後在擷取後進行清理和轉換,以便應用程式隨時使用它。
- 安全性與支援。 遮罩、稽核、加密和存取監視等資料保護工具可確保您的資料保持安全且私密。
- 治理和監管。 若要讓資料湖平台盡可能順暢地執行,使用者應該了解其架構設定,以及資料和作業管理的最佳做法。
常見問題集
-
資料湖是一個集中式存放庫,可擷取、儲存並允許以其原始形式處理大量的資料。它可以容納所有類型的資料,然後用來支援巨量資料分析、機器學習,以及其他形式的智慧型動作。
-
各種產業 (包括零售、財務及娛樂) 的組織會使用資料湖平台來儲存資料、收集見解,並改善其服務的整體品質。例如,投資公司會使用資料湖來收集和處理最新市場資料,讓他們更有效率地管理投資組合風險。
-
資料湖會儲存所有類型的未經處理資料,然後資料科學家可能用於各種專案。資料倉儲會儲存已清理和已處理的資料,然後可用於來源分析或作業報告,以及特定的 BI 使用案例。
-
資料湖存放庫結合了資料湖與資料倉儲的元素,以形成彈性的端對端解決方案,以用於 資料科學 與商業智慧用途。
-
當然。所有產業的主要組織都仰賴儲存在資料湖中的大量資料,以執行智慧型動作、取得見解並實現成長。
-
大量的資料 (包括未經處理資料和非結構化資料) 可能難以管理,導致瓶頸、資料損毀、品質控制問題,以及效能問題。這就是為什麼維護良好的治理和監管做法,可協助您順暢地執行資料湖平台的原因。
-
資料湖架構是指工具和技術的特定設定,可協助將來自資料湖的資料保持整合、易於存取、井然有序且安全。