用于大数据分析的 Data Lake Storage

概述

为高性能分析建立基础

使用单个存储平台消除数据孤岛。通过分层存储和策略管理优化成本。使用 Microsoft Entra ID（前 Azure Active Directory）和基于角色的访问控制 (RBAC) 对数据进行身份验证。借助静态加密和高级威胁防护等安全功能，帮助保护数据。

借助 Azure 全局基础结构，满足任何容量要求并轻松管理数据。以始终如一的高性能运行大规模分析查询。
通过涵盖加密、数据访问和网络级控制的功能保护数据湖，所有这些功能都旨在帮助你更安全地获得见解。
使用各种不同的数据引入工具大规模引入数据。使用 Azure Databricks、Azure Synapse Analytics 或 Azure HDInsight 处理数据。并通过 Microsoft Power BI 对数据进行可视化，从而获取转型见解。
通过独立缩放存储和计算来优化成本，这是本地数据湖无法实现的功能。根据使用情况上调或下调层级，并利用自动化生命周期管理策略来优化存储成本。

功能

密钥存储平台功能

定价

针对构建数据湖提供灵活定价

从包括分层、预留和生命周期管理在内的定价选项中进行选择。

了解详细信息

客户案例

深受各种规模公司的信赖

"通过 Azure，我们现在能够快速从数据中获取价值。我们创建的数据模型提供了可操作见解，这些见解将帮助我们增加收入、降低成本并最大限度地降低风险。"

Ahmed Adnani，Smiths Group 应用和分析总监

"当我们只需要在数天内使用大型群集来完成一项工作时，Microsoft Azure 为我们带来非常高的价值，此后我们可以移除它们以实现节省，而数据中心则几乎完全不可行。这对我们而言是非常巨大的“博弈改变者”。"

James Ferguson，Marks & Spencer 产品经理

资源

开发人员资源

Azure Data Lake Storage 概述

获取 Azure Data Lake Storage Gen2 的介绍及其在大数据分析中的关键功能。

了解详细信息

对数据的访问控制

了解 Azure Data Lake Storage Gen2 中的访问控制工作原理，包括权限模型和安全选项。

了解详细信息

Azure Data Lake Storage 最佳做法

探索使用 Azure Data Lake Storage Gen2 优化性能、安全性和成本的最佳做法。

了解详细信息

常见问题解答

在 Blob 上添加分层命名空间可以保留云存储的成本优势，并且不会影响大数据分析框架专门为之设计的文件系统接口。

一个简单的示例是分析作业将输出数据写入临时目录，然后在提交阶段将该目录重命名为最终名称的频繁发生模式。在对象存储（设计为不支持目录的概念）中，这些重命名可能是涉及 N 个复制和删除操作的冗长操作，其中 N 是目录中的文件数。使用分层命名空间时，这些目录操作具有原子性，能够提高性能和优化成本。此外，支持目录作为文件系统的元素允许应用符合 POSIX 的访问控制列表 (ACL)，该列表使用父目录来传播权限。
与其他云存储服务类似，Data Lake Storage 根据存储的数据量以及对该数据执行操作所产生的成本计费。请参阅成本明细。
Data Lake Storage 主要设计用于 Hadoop 和所有使用 Hadoop FileSystem 作为其数据访问层（例如 Spark 和 Presto）的框架。查看详细信息。

在 Azure 中，Data Lake Storage 可与下列操作互操作：

Azure 数据工厂
Azure HDInsight
Azure Databricks
Azure Synapse Analytics
Power BI
该服务也包含在 Azure Blob 存储生态系统中。
Data Lake Storage 为数据访问控制提供了多种机制。通过提供分层命名空间，该服务是唯一采用符合 POSIX 的访问控制列表 (ACL) 的云分析存储，该列表构成了 Hadoop 分布式文件系统 (HDFS) 权限的基础。Data Lake Storage 还包括通过存储防火墙、专用终结点、强制执行 TLS 1.2 和使用系统或客户提供的密钥的静态加密实现的传输级安全功能。