Trace Id is missing
跳到主内容

数据湖

支持智能操作的无限制数据湖。

  • 存储和分析千万亿字节大小的文件和数万亿个对象
  • 轻松地调试和优化大数据程序
  • 在几秒钟内开始,即时缩放,按作业付费
  • 简单地开发大规模并行程序
  • 企业级安全性、审核和支持
  • 在 YARN 上生成,专为云而设计

Azure Data Lake 包括了所有所需的功能,使开发人员、数据专家和分析师可以更轻松地存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析。它消除了插入和存储所有数据的复杂性,同时启动更快,可与批量、流式、交互式分析一起运行。Azure Data Lake 与现有 IT 投资一起工作以进行简化数据管理和监管的识别、管理和安全防护工作。同时与操作存储区和数据仓库无缝集成,以便可以扩展当前数据应用程序。我们已充分利用与企业客户合作以及为 Microsoft 业务(如 Office 365、Xbox Live、Azure、Windows、必应和 Skype)运行一些全球规模最大的处理和分析的经验。Azure Data Lake 使用一种已准备好满足你当前和未来业务需求的服务,解决了许多工作效率和可缩放性的挑战,而正是这些挑战阻止你最大化自己的数据资产价值。

Azure Data Lake 包括了所有所需的功能,使开发人员、数据专家和分析师可以更轻松地存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析。它消除了插入和存储所有数据的复杂性,同时启动更快,可与批量、流式、交互式分析一起运行。Azure Data Lake 与现有 IT 投资一起工作以进行简化数据管理和监管的识别、管理和安全防护工作。同时与操作存储区和数据仓库无缝集成,以便可以扩展当前数据应用程序。我们已充分利用与企业客户合作以及为 Microsoft 业务(如 Office 365、Xbox Live、Azure、Windows、必应和 Skype)运行一些全球规模最大的处理和分析的经验。Azure Data Lake 使用一种已准备好满足你当前和未来业务需求的服务,解决了许多工作效率和可缩放性的挑战,而正是这些挑战阻止你最大化自己的数据资产价值。

数据湖关系图

Data Lake Analytics - 支持智能操作的无限制分析作业服务

可在其中实现以下操作的首个云分析服务:针对千万亿字节的数据,使用 U-SQL、R、Python 和 .Net 轻松开发和运行大规模并行数据转换和处理程序。无需管理基础结构,按需处理数据、即时缩放,按作业付费。 了解详细信息

《设计分布式系统》一书的封面

HDInsight - 适用于企业的云 Apache Spark 和 Hadoop® 服务

HDInsight 是唯一完全托管的云 Hadoop 产品,为 Spark、Hive、Map Reduce、HBase、Storm、Kafka 和 R 服务器提供优化的开放源代码分析群集,并提供 99.9% 的 SLA 支持。这些大数据技术和 ISV 应用程序都可轻松部署为托管群集,并提供企业级安全性和监视功能。 了解详细信息

Data Lake Store - 支持大数据分析的无限制数据湖

针对企业的安全、可大规模缩放并以开放 HDFS 标准构建的首个云数据湖。由于对数据大小和运行大规模并行分析的能力没有限制,现可充分利用所有非结构化、半结构化和结构化数据的价值。 了解详细信息

轻松地开发、调试和优化大数据程序

找到合适的工具来设计和调整你的大数据查询是一件困难的事。通过与 Visual Studio、Eclipse 和 IntelliJ 深度集成,Data Lake 使之变得容易,使你也可以使用熟悉的工具运行、调试和调整自己的代码。将 U-SQL、Apache Spark、Apache Hive 和 Apache Storm 作业可视化,使你可以了解自己的代码大规模运行时的状况,从而找出性能瓶颈和成本优化,以便你调整查询。执行环境在程序运行时对其进行主动分析,并提供建议以提高性能并降低成本。数据工程师、DBA 和数据架构师可以使用现有技能(例如 SQL、Apache Hadoop、Apache Spark、R、Python、Java 和 .NET)在一开始就变得高效。

与现有 IT 投资无缝集成

大数据最大的挑战之一就是与现有 IT 投资的集成。Data Lake 是 Cortana Intelligence 的关键部分,这意味着它与 Azure Synapse Analytics、Power BI 和数据工厂一起工作,实现完整的云大数据和高级分析平台,帮助你完成从准备数据到在大规模数据集上执行交互式分析的所有操作。通过优化关系源(例如虚拟机上的 Azure SQL Server、Azure SQL 数据库和 Azure Synapse Analytics)的数据虚拟化,Data Lake Analytics 能够对所有数据进行操作。通过将处理移动到源数据附近(而不移动数据)来自动优化查询,从而最大限度地提高性能并减少延迟。最终,因为 Data Lake 在 Azure 中,所以在物联网 (IoT) 方案中,你可以连接到任何由应用程序生成或设备插入的数据。

存储和分析千万亿字节大小的文件和数万亿个对象

Data Lake 从头开始针对云缩放和性能需求进行构建。使用 Azure Data Lake Store,组织可以没有人为限制地在一处分析其所有数据。Data Lake Store 可以存储数万亿个文件,其中单个文件的大小可以大于千万亿字节,比其他云存储大 200 倍。这意味着当你增大或缩小存储的数据大小或所启动的计算数量时,不需要重写代码。这使你可以仅关注自己的业务逻辑,而无需分心如何处理和存储大数据集。Data Lake 也消除了通常与云中大数据相关联的复杂性,从而确保它能够满足你当前和未来的业务需求。

费用可承受且成本效益高

Data Lake 是一种用于运行大数据工作负载的经济高效的解决方案。处理数据时,可以选择按需群集或选择按作业支付模型。这两种方式都无需任何硬件、许可证或服务特定的支持协议。系统可随着业务需求的变化纵向扩展或缩减,这意味着你永远不会为不必要的内容付费。同时让你能够独立缩放存储器和计算,相较传统的大数据解决方案,提供了更经济的灵活性。不仅如此,它还可将租用特定操作团队(通常与运行大数据基础结构相关联)的需求降至最低。Data Lake 可以最小化你的成本,并最大化你的数据投资回报率。最近的一项研究表明,HDInsight 在五年间的 TCO 比部署本地 Hadoop 低 63%。

企业级安全性、审核和支持

Data Lake 完全由 Microsoft 管理和支持,依靠企业级 SLA 和支持。你可以通过全天候客户支持联系我们,以便解决你所面临的与整个大数据解决方案相关挑战。我们的团队将监视你的部署,以保证部署持续运行。Data Lake 可保护数据资产,并可将本地安全和管理控制轻松扩展到云。数据始终加密;动态数据使用 SSL 进行加密,静态数据使用 Azure Key Vault 中由服务或用户管理的受 HSM 保护的密钥进行加密。通过 Azure Active Directory 内置了单一登录 (SSO)、多重身份验证和无缝管理数百万身份等功能。可向用户和组授予对 Store 中所有数据的基于 POSIX 的精确 ACL,从而启用基于角色的访问控制。最后,可以通过审核对系统的每个访问或配置更改,来满足安全性和法规合规性需求。

使用这些强大的解决方案构建 Data Lake 解决方案

HDInsight

预配云 Hadoop、Spark、R Server、Hbase 和 Storm 群集。

Data Lake Analytics

让大数据变得简单的分布式分析服务。

Azure Data Lake Storage

适用于高性能分析的可缩放且安全的数据湖。

Apache Hadoop® 和关联的开源项目名称都是 Apache Software Foundation 的商标。