What is a Data Lake?
Learn about the difference between data lakes and data warehouses. Discover how to build a scalable foundation for all your analytics with Azure.
資料湖定義
This introductory guide explores the many benefits and use cases of a data lake. Learn what a data lake is, why it matters, and discover the difference between data lakes and data warehouses. But first, let's define data lake as a term.
A data lake is a centralized repository that ingests and stores large volumes of data in its original form. The data can then be processed and used as a basis for a variety of analytic needs. Due to its open, scalable architecture, a data lake can accommodate all types of data from any source, from structured (database tables, Excel sheets) to semi-structured (XML files, webpages) to unstructured (images, audio files, tweets), all without sacrificing fidelity. The data files are typically stored in staged zones—raw, cleansed, and curated—so that different types of users may use the data in its various forms to meet their needs. Data lakes provide core data consistency across a variety of applications, powering big data analytics, machine learning, predictive analytics, and other forms of intelligent action.
Why are data lakes important for businesses?
如果沒有資料湖解決方案的出現,今天的高度連結、深入解析驅動的世界將無法實現。這是因為組織依賴如 Azure Data Lake 等全方位的資料湖平台,來保持未經處理資料的合併、整合、安全且可存取。Azure Data Lake Storage 等可調整的儲存工具可將資料保留和保護在中央位置,並以最佳成本消除孤島。這會為使用者執行各種工作負載類別打下基礎,例如巨量資料處理、SQL 查詢、文字採礦、串流分析及機器學習。資料可用來摘要上游資料視覺效果和隨選報表需求。像是 Azure Synapse Analytics 的新式端對端資料平台,可解決以資料湖為中心的巨量資料架構完整需求。
資料湖使用案例
使用設計良好的解決方案,創新的潛能就是無盡的。以下是一些範例,說明各種產業中的組織如何使用資料湖平台來最佳化其成長:
- 串流媒體。訂閱型串流公司會收集並處理客戶行為的深入解析,並使用這些資訊來改善其建議演算法。
- 財務。投資必須使用已收集和即時儲存的最新市場資料,以有效管理投資組合風險。
- 醫療保健。醫療保健組織依賴巨量資料來改善病患的照護品質。醫院使用大量的歷程記錄資料來簡化病患療程,以產生更好的結果,並降低照護成本。
- 全通路零售商。零售商使用資料湖來擷取和合併來自多個觸控點的資料,包括行動裝置、社交、聊天、口耳傳播,以及面對面。
- IoT。硬體感應器會在周圍的實體世界產生大量的半結構化和非結構化資料。資料湖提供一個中央存放庫,讓這項資訊可以用於未來的分析。
- 數位供應鏈。 資料湖有助於製造商合併不同的倉儲資料,包括 EDI 系統、XML 和 JSON。
- 銷售。資料科學家和銷售工程師通常會建立預測性模型,以協助判斷客戶行為並減少整體流失。
資料湖與資料倉儲
Now you know what a data lake is, why it matters, and how it's used across a variety of organizations. But what's the difference between a data lake and a data warehouse? And when is it appropriate to use one over the other?
While data lakes and data warehouses are similar in that they both store and process data, each have their own specialties, and therefore their own use cases. That's why it's common for an enterprise-level organization to include a data lake and a data warehouse in their analytics ecosystem. Both repositories work together to form a secure, end-to-end system for storage, processing, and faster time to insight.
資料湖會從各種來源擷取關聯式和非關聯式資料—商務應用程式、行動應用程式、IoT 裝置、社交媒體或串流,而不需要定義資料的結構或結構描述,直到讀取為止。Schema-on-read 可確保任何類型的資料都可以儲存在其原始表單中。因此,資料湖可以隨時保存各種資料類型,從結構化到半結構化或非結構化。其彈性且可調整的特性,使其對於使用不同類型的計算處理工具,例如 Apache Spark 或 Azure Machine Learning 來執行複雜資料分析而言非常重要。
相反地,資料倉儲在本質上是關聯式。結構或結構描述是由已針對 SQL 查詢作業策劃、符合及最佳化的商務和產品需求,建立模型或預先定義。當資料湖存放所有結構類型的資料,包括原始和未處理的資料時,資料倉儲會儲存已處理及轉換且具有特定用途的資料,進而可用於來源分析或作業報告。這會讓資料倉儲更適合用於產生更標準化的 BI 分析形式,或服務已定義的商業用途案例。
資料湖 | 資料倉儲 | |
---|---|---|
類型 | 結構化, 半結構化, 非結構化 | 結構化 |
關聯式, 非關聯式 | 關聯式 | |
結構描述 | Schema on read | Schema on write |
格式 | 未經處理, 未篩選 | 已處理, 已審查 |
來源 | 巨量資料, IoT, 社交媒體, 串流資料 | 應用程式, 商務, 交易式資料, 批次報告 |
可擴縮性 | 以低成本輕鬆調整 | 難以調整且昂貴 |
使用者 | 資料科學家, 資料工程師 | 資料倉儲專業人員, 商務分析師 |
使用案例 | 機器學習, 預測性分析, 即時分析 | 核心報表, BI |
Data lake vs. data lakehouse
Now you know the difference between a data lake vs. a data warehouse. But what's the difference between a data lake and a data lakehouse? And is it necessary to have both?
儘管傳統資料湖有許多優點,但並非沒有缺點。因為資料湖可以容納各種來源的所有資料類型,所以可能會發生品質控制、資料損毀和不當分割等相關問題。管理不良的資料湖不僅會損害資料完整性,而且也會造成瓶頸、效能緩慢及安全性風險。
That's where the data lakehouse comes into play. A data lakehouse is an open standards-based storage solution that is multifaceted in nature. It can address the needs of data scientists and engineers who conduct deep data analysis and processing, as well as the needs of traditional data warehouse professionals who curate and publish data for business intelligence and reporting purposes. The beauty of the lakehouse is that each workload can seamlessly operate on top of the data lake without having to duplicate the data into another structurally predefined database. This ensures that everyone is working on the most up-to-date data, while also reducing redundancies.
資料湖存放庫透過直接在雲端資料湖之上新增 資料湖儲存層,以解決傳統資料湖的挑戰。儲存層提供彈性的分析架構,可處理 ATOMIC (不可部分完成性、一致性、隔離性和耐用性) 交易,以取得資料可靠性、串流整合,以及資料版本設定和結構描述強制等進階功能。這允許在資料湖上進行一系列的分析活動,而不影響核心資料一致性。雖然湖存放庫的任務取決於您的需求有多複雜,但其彈性與範圍使其成為許多企業組織的最佳解決方案。
資料湖 | 資料湖存放庫 | |
---|---|---|
類型 | 結構化, 半結構化, 非結構化 | 結構化, 半結構化, 非結構化 |
關聯式, 非關聯式 | 關聯式, 非關聯式 | |
結構描述 | Schema on read | Schema on read, Schema on write |
格式 | 未經處理, 未篩選, 已處理, 已策劃 | 未經處理, 未篩選, 已處理, 已策劃, 差異格式檔案 |
來源 | 巨量資料, IoT, 社交媒體, 串流資料 | 巨量資料, IoT, 社交媒體, 串流資料, 應用程式, 商務, 交易式資料, 批次報告 |
可擴縮性 | 以低成本輕鬆調整 | 以低成本輕鬆調整 |
使用者 | 資料科學家 | 商務分析師, 資料工程師, 資料科學家 |
使用案例 | 機器學習, 預測性分析 | 核心報表, BI, 機器學習, 預測性分析 |
什麼是資料湖結構?
資料湖的核心是儲存體存放庫,沒有其本身的集合架構。為了充分利用其功能,它需要各種工具、技術和計算引擎,協助最佳化整合、儲存及處理資料。這些工具會共同建立一個有凝聚力地階層式架構,這個架構會由巨量資料提供資訊,並且會在資料湖之上執行。此架構也可能形成資料湖存放庫的作業結構。每個組織都有其專屬的設定,但大多數資料湖存放庫架構的功能如下:
- 資源管理與協調流程。資源管理員可讓資料湖一致地執行工作,將正確的資料量、資源和計算能力配置至正確的位置。
- 方便存取的連接器。各種工作流程可讓使用者輕鬆存取及共用所需的資料。
- 可靠的分析。良好的分析服務應該快速、可調整且分散式。它也應該支援多種語言的工作負載類別範圍。
- 資料分類。資料分析、目錄及封存可協助組織追蹤資料內容、品質、位置及歷程記錄。
- 擷取、載入、轉換 (ELT) 流程。 ELT 指的是從多個來源擷取資料並載入資料湖原始區域的流程,然後在擷取之後加以清除和轉換,讓應用程式隨時使用。
- 安全性與支援。遮罩、稽核、加密及存取監視等資料保護工具可確保您的資料保持安全且私密。
- 治理與管理。若要讓資料湖平台盡可能順暢地執行,使用者應了解其架構設定,以及資料與作業管理的最佳做法。
其他資源
探索
常見問題集
-
資料湖是集中式存放庫,可內嵌、儲存並允許以原始格式處理大量資料。它可以容納所有類型的資料,進而用來提供巨量資料分析、機器學習及其他形式的智慧型動作。
-
Organizations across a range of industries, including retail, finance, and entertainment, use data lake platforms to store data, gather insights, and improve the overall quality of their services. Investment firms, for example, use data lakes to collect and process up-to-market data, allowing them to manage portfolio risks more efficiently.
-
資料湖會儲存所有類型的未經處理資料,資料科學家可能會使用這些未經處理資料來進行各種專案。資料倉儲存放區已清除及已處理的資料,這些資料可用於來源分析或作業報告,以及特定 BI 使用案例。
-
A data lakehouse combines elements of a data lake and a data warehouse to form a flexible, end-to-end solution for data science and business intelligence purposes.
-
絕對。所有產業的主要組織都依賴儲存在資料湖中的大量資料,來推動智慧型動作、獲得見解及成長。
-
Large volumes of data, including raw and unstructured data, can be difficult to manage, leading to bottlenecks, data corruption, quality control issues, and performance issues. That's why it's important to maintain good governance and stewardship practices to help you run your data lake platform smoothly.
-
資料湖結構是指工具和技術的特定設定,可協助將資料從資料湖整合、可存取、有組織且安全保存在一起。
免費帳戶
免費試用 Azure 雲端運算服務,最多達 30 天。
隨用隨付
利用隨付隨用價格開始。沒有預先承諾,隨時可取消。