Azure Data Lake Storage
大规模可缩放且安全的数据湖,适用于高性能分析工作负载。
为高性能分析建立基础
使用单个存储平台消除数据孤岛。通过分层存储和策略管理优化成本。使用 Microsoft Entra ID(前 Azure Active Directory)和基于角色的访问控制 (RBAC) 对数据进行身份验证。借助静态加密和高级威胁防护等安全功能,帮助保护数据。
通过自动异地复制实现无限制的缩放和 16 个 9 的数据持久性
高度安全存储,具有灵活的跨数据访问、加密和网络级控制的保护机制
用于引入、处理和可视化的单一存储平台,支持最常见的分析框架
通过独立缩放存储和计算、生命周期策略管理和对象级分层实现成本优化
缩放以匹配要求最苛刻的分析工作负载
借助 Azure 全局基础结构,满足任何容量要求并轻松管理数据。以始终如一的高性能运行大规模分析查询。
利用灵活的安全机制
通过涵盖加密、数据访问和网络级控制的功能保护数据湖,所有这些功能都旨在帮助你更安全地获得见解。
为分析构建可缩放的基础
使用各种不同的数据引入工具大规模引入数据。使用 Azure Databricks、Azure Synapse Analytics 或 Azure HDInsight 处理数据。并通过 Microsoft Power BI 对数据进行可视化,从而获取转型见解。
构建具有成本效益的云数据湖
通过独立缩放存储和计算来优化成本,这是本地数据湖无法实现的功能。根据使用情况上调或下调层级,并利用自动化生命周期管理策略来优化存储成本。
内置的全面的安全性和合规性
-
Microsoft 每年在网络安全研发方面的投资超过 USD 10 亿。
-
我们雇佣了 3,500 多名安全专家,专门负责数据安全和隐私方面的工作。
通过 Azure 免费帐户开始使用
2
用完额度后,请改为即付即用定价以继续使用相同的免费服务构建自己的内容。只需为超出每月免费金额以外的部分付费。
3
有关 Data Lake Storage 的常见问题解答
-
在 Blob 上添加分层命名空间可以保留云存储的成本优势,并且不会影响大数据分析框架专门为之设计的文件系统接口。
一个简单的示例是分析作业将输出数据写入临时目录,然后在提交阶段将该目录重命名为最终名称的频繁发生模式。在对象存储(设计为不支持目录的概念)中,这些重命名可能是涉及 N 个复制和删除操作的冗长操作,其中 N 是目录中的文件数。使用分层命名空间时,这些目录操作具有原子性,能够提高性能和优化成本。此外,支持目录作为文件系统的元素允许应用符合 POSIX 的访问控制列表 (ACL),该列表使用父目录来传播权限。
-
与其他云存储服务类似,Data Lake Storage 根据存储的数据量以及对该数据执行操作所产生的成本计费。请参阅成本明细。
-
Data Lake Storage 主要设计用于 Hadoop 和所有使用 Hadoop FileSystem 作为其数据访问层(例如 Spark 和 Presto)的框架。查看详细信息。
在 Azure 中,Data Lake Storage 可与下列操作互操作:
- Azure 数据工厂
- Azure HDInsight
- Azure Databricks
- Azure Synapse Analytics
- Power BI
该服务也包含在 Azure Blob 存储生态系统中。
-
Data Lake Storage 为数据访问控制提供了多种机制。通过提供分层命名空间,该服务是唯一采用符合 POSIX 的访问控制列表 (ACL) 的云分析存储,该列表构成了 Hadoop 分布式文件系统 (HDFS) 权限的基础。Data Lake Storage 还包括通过存储防火墙、专用终结点、强制执行 TLS 1.2 和使用系统或客户提供的密钥的静态加密实现的传输级安全功能。