跳到主内容

Data Lake

无限制 Data Lake,支持智能操作

  • 存储和分析千万亿字节大小的文件和数万亿个对象
  • 简单地开发大规模并行程序
  • 轻松地调试和优化大数据程序
  • 企业级安全、审核和支持
  • 在几秒钟内开始,即时缩放,按作业付费
  • 在 YARN 上生成,为云设计
Azure Data Lake 包括了所有所需的功能,使开发人员、数据专家和分析师可以更轻松地存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析。它消除了插入和存储所有数据的复杂性,同时启动更快,可与批量、流式、交互式分析一起运行。Azure Data Lake 与现有 IT 投资一起工作以进行简化数据管理和监管的识别、管理和安全防护工作。同时与操作存储区和数据仓库无缝集成,以便可以扩展当前数据应用程序。我们已充分利用与企业客户合作以及为 Microsoft 业务(如 Office 365、Xbox Live、Azure、Windows、必应 和 Skype)运行一些全球规模最大的处理和分析的经验。Azure Data Lake 使用一种已准备好满足你当前和未来业务需求的服务,解决了许多工作效率和可缩放性的挑战,而正是这些挑战阻止你最大化自己的数据资产价值。

Data Lake Analytics - 无限制分析作业服务,支持智能操作

它是在 U-SQL、R、Python 和 .Net 中可轻松开发和运行大规模并行数据转换和处理程序的第一个云分析服务。没有要管理的基础结构,可按需处理数据,立即缩放,并且仅按作业付费。了解详细信息

HDInsight - 适用于企业的云 Apache Spark 和 Hadoop® 服务

HDInsight 是唯一完全托管的云 Hadoop 产品,为 Spark、Hive、Map Reduce、HBase、Storm、Kafka 以及由一个 99.9% 的 SLA 支持的 R 服务器提供优化的开源分析群集。这些大数据技术和 ISV 应用程序都易于部署为企业级安全和监控的托管群集。了解详细信息

Data Lake Store - 无限制 Data Lake,支持大数据分析

针对企业的安全、可大规模缩放并以开放 HDFS 标准构建的首个云 Data Lake。由于对数据大小和运行大规模并行分析的能力没有限制,现可充分利用所有非结构化、半结构化和结构化数据的价值。了解详细信息

轻松地开发、调试和优化大数据程序

找到合适的工具来设计和调整你的大数据查询是一件困难的事。通过与 Visual Studio、Eclipse 和 IntelliJ深度集成,Data Lake 使之变得容易,从而可以使用熟悉的工具运行、调试和调整自己的代码。U-SQL、Apache Spark、Apache Hive 和 Apache Storm 作业可视化允许看见自己的代码如何大规模运行,并确定性能瓶颈和成本优化,从而让调整查询更轻松。执行环境在程序运行时对其进行主动分析,并提供建议以提高性能和降低成本。数据工程师、DBA 和数据架构师可以使用现有技能(比如 SQL、Apache Hadoop、Apache Spark、R、Python、Java 和 .NET)在一开始就变得高效。

与你的现有 IT 投资无缝集成

大数据最大的挑战之一就是与现有 IT 投资的集成。Data Lake 是 Cortana Intelligence 的关键部分,这意味着它与 Azure Synapse Analytics、Power BI 和数据工厂一起工作,实现完整的云大数据和高级分析平台,帮助你完成从准备数据到在大规模数据集上执行交互式分析的所有操作。通过优化关系源(例如虚拟机上的 Azure SQL Server、Azure SQL 数据库和 Azure Synapse Analytics)的数据虚拟化,Data Lake Analytics 能够对所有数据进行操作。通过将处理移动到源数据附近(而不移动数据)来自动优化查询,从而最大限度地提高性能和减少延迟。最终,因为 Data Lake 在 Azure 中,所以在物联网 (IoT) 方案中,你可以连接到任何由应用程序生成或设备插入的数据。

存储和分析千万亿字节大小的文件和数万亿个对象

Data Lake 从头开始针对云缩放和性能需求进行构建。使用 Azure Data Lake Store,组织可以没有人为限制地在一处分析其所有数据。Data Lake Store 可以存储数万亿个文件,其中单个文件的大小可以大于千万亿字节,比其他云存储大 200 倍。这意味着当你增大或缩小存储的数据大小或所启动的计算数量时,不需要重写代码。这使你仅关注自己的业务逻辑而非如何处理和存储大数据集。Data Lake 也消除了通常与云中大数据相关联的复杂性,从而确保它能够满足你当前和未来的业务需求。

费用可承受且成本效益高

Data Lake 是一种用于运行大数据工作负荷的经济高效的解决方案。处理数据时,可以选择按需群集或选择按作业支付模型。在上述两种情况下,都无需硬件、许可证或服务特定的支持协议。系统可随着业务需求的变化扩展或缩减,这意味着你永远不会为不必要的内容付费。同时让你能够独立缩放存储器和计算,相较传统的大数据解决方案,提供了更经济的灵活性。最终,它使租用特定操作团队的需求最小化,这通常是与运行大数据基础结构相关联的。Data Lake 在最大化你的数据投资回报的同时大大降低成本。某近期研究表明,HDInsight 在五年间的 TCO 比本地部署 Hadoop 低 63%。

企业级安全、审核和支持

Data Lake 完全由 Microsoft 管理和支持,依靠企业级 SLA 和支持。你可以通过全天候客户支持联系我们,以便解决你所面临的与整个大数据解决方案相关挑战。无需你进行监控,我们的团队将监控你的部署,保证它将持续运行。Data Lake 可保护数据资产,并可将本地安全和管理控制轻松扩展到云。数据始终加密: 动态数据使用 SSL 进行加密,静态数据使用 Azure Key Vault 中由服务或用户管理的、由 HSM 支持的密钥进行加密。通过 Azure Active Directory 内置了单一登录(SSO)、多重身份验证和无缝管理数百万身份等功能。可向用户和组授予对 Store 中所有数据的基于 POSIX 的精确 ACL,从而启用基于角色的访问控制。最后,可以通过审核对系统的每个访问或配置更改,来满足安全和监管符合性需求。

使用这些强大的解决方案构建 Data Lake 解决方案

HDInsight

预配云 Hadoop、Spark、R Server、Hbase 和 Storm 群集

Data Lake Analytics

让大数据变得简单的分布式分析服务

Azure Data Lake Storage

可缩放的安全数据湖,用于高性能分析

Apache Hadoop® 和关联的开放源项目名称都是 Apache Software Foundation 的商标。

可以给你提供什么帮助?