適用於巨量資料分析的 Data Lake Storage

概觀

為高效能分析打造基礎

使用單一儲存體平台消彌資料孤島。使用分層式儲存體和原則管理來將成本最佳化。使用 Microsoft Entra ID (先前稱為 Azure Active Directory) 和角色型存取控制 (RBAC) 來驗證資料。並使用安全性功能 (例如待用加密和進階威脅防護) 協助保護資料。

透過 Azure 全域基礎結構，輕鬆滿足任何容量需求及管理資料。以一貫的高效能執行大規模的分析查詢。
使用跨越加密、資料存取和網路層級控制的功能來保護您的資料湖，這些功能的設計是要協助您更安全地推動深入解析。
使用廣泛的資料擷取工具，大規模擷取資料。使用 Azure Databricks、Azure Synapse Analytics 或 Azure HDInsight 來處理資料。並以 Microsoft Power BI 將資料視覺化，以取得轉型深入解析。
藉由獨立調整儲存體和計算來將成本最佳化，而此目標是您無法使用內部部署資料湖來達成。根據使用量相應增加或減少，並利用自動化生命週期管理原則來最佳化儲存成本。

功能

主要儲存體平台功能

價格

建置資料湖的彈性價格

選擇價格選項，包括分層、保留和生命週期管理。

深入了解

客戶案例

受到各種規模公司的信任

"有了 Azure，我們現在能夠快速從資料實現價值。我們正在從資料模型建立的可採取動作的深入解析，將協助我們增加營收、降低成本並將風險降至最低。"

Ahmed Adnani，Smiths Group 應用程式和分析主管

「在我們有幾天需要大量叢集來完成工作時，Microsoft Azure 提供我們極高的價值，我們接著能擺脫叢集以節省使用量，若是資料中心在這種情況下就完全行不通。這為我們帶來重大突破。"

Marks & Spencer 產品經理 James Ferguson

資源

開發人員資源

Azure Data Lake Storage 概觀

取得 Azure Data Lake Storage Gen2 的簡介，並了解其在巨量資料分析中的關鍵功能。

深入了解

資料的存取控制

了解 Azure Data Lake Storage Gen2 中的存取控制運作方式，包括權限模型與安全性選項。

深入了解

Azure Data Lake Storage 最佳做法

探索使用 Azure Data Lake Storage Gen2 以最佳化效能、安全性和成本的最佳做法。

深入了解

常見問題集

在 Blob 上新增階層命名空間可讓您保有雲端儲存體的成本優勢，而不會危害專為巨量資料分析架構設計的檔案系統介面。

以下經常發生的分析作業模式就是一個簡單的範例：將輸出資料寫入至暫存目錄，然後在認可階段期間將該目錄重新命名為最終名稱。在物件存放區中 (依設計不支援目錄的概念)，這些重新命名可能是涉及 N 個複製和刪除作業的冗長作業，其中 N 是目錄中的檔案數目。使用階層式命名空間，這些目錄操作作業不可部分完成，進而可提升效能和成本。此外，支援目錄作為檔案系統的元素，可允許套用使用上層目錄的 POSIX 相容存取控制清單 (ACL) 來傳播權限。
與其他雲端儲存體服務類似，Data Lake Storage 會根據儲存的資料量加上對該資料執行的任何作業成本來計費。查看成本細目。
Data Lake Storage 主要的設計訴求是要使用 Hadoop 和所有使用 Hadoop FileSystem 作為其資料存取層的架構 (例如 Spark 和 Presto)。查看詳細資料。

在 Azure 中，Data Lake Storage 可與以下項目交互作用：

Azure Data Factory
Azure HDInsight
Azure Databricks
Azure Synapse Analytics
Power BI
此服務也包含在 Azure Blob 儲存體生態系統中。
Data Lake Storage 為資料存取控制提供多個機制。藉由提供階層式命名空間，該服務是唯一具備 POSIX 相容存取控制清單 (ACL) 的雲端分析存放區，而這些存取控制清單構成了 Hadoop 分散式檔案系統 (HDFS) 權限的基礎。Data Lake Storage 也包含透過儲存體防火牆、私人端點、TLS 1.2 強制執行，以及使用系統或客戶提供的金鑰進行待用加密的傳輸層級安全性功能。