什么是数据湖？

了解数据湖和数据仓库之间的差异。了解如何使用 Azure 为所有分析构建可缩放的基础。

数据湖定义

本介绍性指南探讨了数据湖的许多优点和用例。了解什么是数据湖，为什么它很重要，并发现数据湖和数据仓库之间的差异。但首先，让我们来定义一下数据湖这个术语。

数据湖是一个集中式存储库，可引入和存储大量原始格式的数据。然后，可以处理数据并将其用作各种分析需求的基础。由于数据湖是开放的可缩放体系结构，因此可以容纳从结构化源（数据库表、Excel 工作表）到半结构化源（XML 文件、网页）到非结构化源（图像、音频文件、推文）等任何源的所有类型的数据，而不会牺牲保真度。数据文件通常存储在分阶段的区域中（原始区、清理区和精选区），以便不同类型的用户可以使用各种格式的数据来满足其需求。数据湖在各种应用程序中提供核心数据一致性，为大数据分析、机器学习、预测分析和其他形式的智能操作提供支持。

为什么数据湖对企业很重要？

如果没有数据湖解决方案的出现，就没有当前高度互连、见解驱动的世界。这是因为组织依赖于综合数据湖平台（如 Azure Data Lake）来保持原始数据的合并、集成、安全且易于访问。Azure Data Lake Storage 等可缩放存储工具可以在一个中心位置保存和保护数据，从而以最佳成本消除孤岛。这为用户执行各种工作负载类别（例如大数据处理、SQL 查询、文本挖掘、流分析和机器学习）打下了基础。然后，数据可用于馈送上游数据可视化和即席报告需求。新式端到端数据平台（如 Azure Synapse Analytics）可满足以数据湖为中心的大数据体系结构的全部需求。

数据湖用例

借助架构良好的解决方案，创新的潜力是无限的。下面只是举例说明各行各业的组织如何使用数据湖平台来优化其增长：

流媒体。基于订阅的流媒体公司会收集和处理有关客户行为的见解，这些信息可用于改进其推荐算法。
金融。投资公司使用实时收集和存储的最新市场数据来有效管理投资组合风险。
医疗。医疗保健组织依靠大数据来提高患者护理质量。医院使用大量历史数据来简化患者路径，从而获得更好的结果并降低护理成本。
全渠道零售商。零售商使用数据湖来捕获和合并来自多个接触点（包括移动端、社交、聊天、口碑和亲身体验）的数据。
IoT。硬件传感器会产生大量关于周围物理世界的半结构化和非结构化数据。数据湖提供了一个中心存储库来存储此信息以用于将来的分析。
数字供应链。数据湖可帮助制造商合并不同的仓库数据，包括 EDI 系统、XML 和 JSON。
销售。数据科学家和销售工程师通常会构建预测模型，以帮助确定客户行为并减少整体流失。

数据湖与数据仓库

现在，你已了解什么是数据湖、为什么它很重要，以及它在各种组织中的使用方式。数据湖与数据仓库有何区别？什么情况下使用其中一种比使用另一种更合适？

数据湖和数据仓库之所以相似，是因为它们都存储和处理数据，但每个都具有自己的专长，因此都有自己的用例。正因如此，企业级组织通常会在其分析生态系统中纳入数据湖和数据仓库。这两个存储库协同工作，形成一个安全的端到端系统，用于存储、处理数据并更快获得见解。

数据湖从各种源（业务应用程序、移动应用、IoT 设备、社交媒体或流媒体）中捕获关系型数据和非关系型数据，在读取数据前无需定义数据的结构或架构。读取时的架构可确保任何类型的数据都可以以原始格式存储。因此，数据湖可以容纳任何规模的各种数据类型，从结构化数据到半结构化数据，再到非结构化数据均可容纳。其灵活和可缩放的性质使得它们对于使用不同类型的计算处理工具（如 Apache Spark 或 Azure 机器学习）执行复杂形式的数据分析至关重要。

相比之下，数据仓库在本质上是关系型仓库。结构或架构会根据业务和产品要求进行建模或预定义，而这些要求又针对 SQL 查询操作进行精选、合规和优化。数据库可容纳所有结构类型的数据（包括原始和未处理的数据），而数据仓库则存储根据特定目的处理和转换的数据，这些数据可用于支持分析或操作报告。这使得数据仓库非常适合于生成更标准化的 BI 分析，或为已定义的业务用例提供服务。

	数据湖	数据仓库
类型	结构化、半结构化、非结构化	结构化
	关系型、非关系型	关系型
架构	读取时的架构	写入时的架构
格式	原始、未筛选	已处理、已审核
源	大数据、IoT、社交媒体、流数据	应用程序、业务、事务数据、批处理报告
可伸缩性	轻松缩放，成本低	完成缩放很困难且成本高昂
用户	数据科学家、数据工程师	数据仓库专业人员、业务分析师
用例	机器学习、预测分析、实时分析	核心报告、BI

数据湖与数据湖屋

现在，你已了解数据湖与数据仓库之间的区别。但数据湖和数据湖屋之间有什么区别？是否必须同时拥有这两者？

传统的数据湖尽管有许多优点，但并非没有缺点。由于数据湖可以容纳来自各种源的所有类型的数据，因此可能会出现与质量控制、数据损坏和分区不当相关的问题。管理不佳的数据湖不仅会影响数据完整性，而且还可能导致瓶颈、性能缓慢和安全风险。

这就是数据湖屋发挥作用的地方。数据湖屋是一种基于开放标准的存储解决方案，在本质上是一种多面性的解决方案。它可以满足执行深度数据分析和处理的数据科学家和工程师的需求，以及为商业智能和报告目的精选和发布数据的传统数据仓库专业人员的需求。湖屋的优点是，每个工作负载都可以在数据湖屋上无缝运行，而无需将数据复制到另一个结构上预定义的数据库数据库。这可确保每个人都在处理最新数据，同时减少冗余。

数据湖屋通过直接在云数据湖上添加增量湖存储层增量湖存储层来应对传统数据湖的挑战。该存储层提供灵活的分析体系结构，可处理 ACID（原子性、一致性、隔离性和持久性）事务，以实现数据可靠性、流集成和高级功能（如数据版本控制和架构强制）。这样可以在湖上进行一系列分析活动，并且完全不会影响核心数据一致性。虽然湖屋的需求取决于需求的复杂程度，但其灵活性和范围使其成为许多企业组织的最佳解决方案。

	数据湖	数据湖屋
类型	结构化、半结构化、非结构化	结构化、半结构化、非结构化
	关系型、非关系型	关系型、非关系型
架构	读取时的架构	读取时的架构、写入时的架构
格式	原始、未筛选、已处理、已精选	原始、未筛选、已处理、已精选、增量格式化文件
源	大数据、IoT、社交媒体、流数据	大数据、IoT、社交媒体、流数据、应用程序、业务、事务数据、批处理报告
可伸缩性	轻松缩放，成本低	轻松缩放，成本低
用户	数据科学家	业务分析师、数据工程师、数据科学家
用例	机器学习、预测分析	核心报告、BI、机器学习、预测分析