什么是数据湖?
了解数据湖和数据仓库之间的差异。了解如何使用 Azure 为所有分析构建可缩放的基础。
数据湖定义
本介绍性指南探讨了数据湖的许多优点和用例。了解什么是数据湖,为什么它很重要,并发现数据湖和数据仓库之间的差异。但首先,让我们来定义一下数据湖这个术语。
数据湖是一个集中式存储库,可引入和存储大量原始格式的数据。然后,可以处理数据并将其用作各种分析需求的基础。由于数据湖是开放的可缩放体系结构,因此可以容纳从结构化源(数据库表、Excel 工作表)到半结构化源(XML 文件、网页)到非结构化源(图像、音频文件、推文)等任何源的所有类型的数据,而不会牺牲保真度。数据文件通常存储在分阶段的区域中(原始区、清理区和精选区),以便不同类型的用户可以使用各种格式的数据来满足其需求。数据湖在各种应用程序中提供核心数据一致性,为 大数据分析、 机器学习、预测分析和其他形式的智能操作提供支持。
为什么数据湖对企业很重要?
如果没有数据湖解决方案的出现,就没有当前高度互连、见解驱动的世界。这是因为组织依赖于综合数据湖平台(如 Azure Data Lake)来保持原始数据的合并、集成、安全且易于访问。Azure Data Lake Storage 等可缩放存储工具可以在一个中心位置保存和保护数据,从而以最佳成本消除孤岛。这为用户执行各种工作负载类别(例如大数据处理、SQL 查询、文本挖掘、流分析和机器学习)打下了基础。然后,数据可用于馈送上游数据可视化和即席报告需求。新式端到端数据平台(如 Azure Synapse Analytics)可满足以数据湖为中心的大数据体系结构的全部需求。
数据湖用例
借助架构良好的解决方案,创新的潜力是无限的。下面只是举例说明各行各业的组织如何使用数据湖平台来优化其增长:
- 流媒体。 基于订阅的流媒体公司会收集和处理有关客户行为的见解,这些信息可用于改进其推荐算法。
- 金融。 投资公司使用实时收集和存储的最新市场数据来有效管理投资组合风险。
- 医疗。 医疗保健组织依靠大数据来提高患者护理质量。医院使用大量历史数据来简化患者路径,从而获得更好的结果并降低护理成本。
- 全渠道零售商。 零售商使用数据湖来捕获和合并来自多个接触点(包括移动端、社交、聊天、口碑和亲身体验)的数据。
- IoT。 硬件传感器会产生大量关于周围物理世界的半结构化和非结构化数据。数据湖提供了一个中心存储库来存储此信息以用于将来的分析。
- 数字供应链。 数据湖可帮助制造商合并不同的仓库数据,包括 EDI 系统、XML 和 JSON。
- 销售。 数据科学家和销售工程师通常会构建预测模型,以帮助确定客户行为并减少整体流失。
数据湖与数据仓库
现在,你已了解什么是数据湖、为什么它很重要,以及它在各种组织中的使用方式。数据湖与数据仓库有何区别? 什么情况下使用其中一种比使用另一种更合适?
数据湖和 数据仓库 之所以相似,是因为它们都存储和处理数据,但每个都具有自己的专长,因此都有自己的用例。正因如此,企业级组织通常会在其分析生态系统中纳入数据湖和数据仓库。这两个存储库协同工作,形成一个安全的端到端系统,用于存储、处理数据并更快获得见解。
数据湖从各种源(业务应用程序、移动应用、IoT 设备、社交媒体或流媒体)中捕获关系型数据和非关系型数据,在读取数据前无需定义数据的结构或架构。读取时的架构可确保任何类型的数据都可以以原始格式存储。因此,数据湖可以容纳任何规模的各种数据类型,从结构化数据到半结构化数据,再到非结构化数据均可容纳。其灵活和可缩放的性质使得它们对于使用不同类型的计算处理工具(如 Apache Spark 或 Azure 机器学习)执行复杂形式的数据分析至关重要。
相比之下,数据仓库在本质上是关系型仓库。结构或架构会根据业务和产品要求进行建模或预定义,而这些要求又针对 SQL 查询操作进行精选、合规和优化。数据库可容纳所有结构类型的数据(包括原始和未处理的数据),而数据仓库则存储根据特定目的处理和转换的数据,这些数据可用于支持分析或操作报告。这使得数据仓库非常适合于生成更标准化的 BI 分析,或为已定义的业务用例提供服务。
数据湖 | 数据仓库 | |
---|---|---|
类型 | 结构化、半结构化、非结构化 | 结构化 |
关系型、非关系型 | 关系型 | |
架构 | 读取时的架构 | 写入时的架构 |
格式 | 原始、未筛选 | 已处理、已审核 |
源 | 大数据、IoT、社交媒体、流数据 | 应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 轻松缩放,成本低 | 完成缩放很困难且成本高昂 |
用户 | 数据科学家、数据工程师 | 数据仓库专业人员、业务分析师 |
用例 | 机器学习、预测分析、实时分析 | 核心报告、BI |
数据湖与数据湖屋
现在,你已了解数据湖与数据仓库之间的区别。但数据湖和数据湖屋之间有什么区别? 是否必须同时拥有这两者?
传统的数据湖尽管有许多优点,但并非没有缺点。由于数据湖可以容纳来自各种源的所有类型的数据,因此可能会出现与质量控制、数据损坏和分区不当相关的问题。管理不佳的数据湖不仅会影响数据完整性,而且还可能导致瓶颈、性能缓慢和安全风险。
这就是数据湖屋发挥作用的地方。数据湖屋是一种基于开放标准的存储解决方案,在本质上是一种多面性的解决方案。它可以满足执行深度数据分析和处理的数据科学家和工程师的需求,以及为商业智能和报告目的精选和发布数据的传统数据仓库专业人员的需求。湖屋的优点是,每个工作负载都可以在数据湖屋上无缝运行,而无需将数据复制到另一个结构上预定义的 数据库数据库。这可确保每个人都在处理最新数据,同时减少冗余。
数据湖屋通过直接在云数据湖上添加 增量湖存储层增量湖存储层 来应对传统数据湖的挑战。该存储层提供灵活的分析体系结构,可处理 ACID(原子性、一致性、隔离性和持久性)事务,以实现数据可靠性、流集成和高级功能(如数据版本控制和架构强制)。这样可以在湖上进行一系列分析活动,并且完全不会影响核心数据一致性。虽然湖屋的需求取决于需求的复杂程度,但其灵活性和范围使其成为许多企业组织的最佳解决方案。
数据湖 | 数据湖屋 | |
---|---|---|
类型 | 结构化、半结构化、非结构化 | 结构化、半结构化、非结构化 |
关系型、非关系型 | 关系型、非关系型 | |
架构 | 读取时的架构 | 读取时的架构、写入时的架构 |
格式 | 原始、未筛选、已处理、已精选 | 原始、未筛选、已处理、已精选、增量格式化文件 |
源 | 大数据、IoT、社交媒体、流数据 | 大数据、IoT、社交媒体、流数据、应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 轻松缩放,成本低 | 轻松缩放,成本低 |
用户 | 数据科学家 | 业务分析师、数据工程师、数据科学家 |
用例 | 机器学习、预测分析 | 核心报告、BI、机器学习、预测分析 |
什么是数据湖体系结构?
数据湖的核心是一个存储库,它本身没有一组体系结构。为了充分利用其功能,它需要各种工具、技术和计算引擎来帮助优化数据的集成、存储和处理。这些工具相互配合,创建了一个整体一致的分层体系结构,该体系结构由大数据提供信息,并在数据湖上运行。此体系结构还可能构成数据湖屋的操作结构。每个组织都有其自己的唯一配置,但大多数数据湖屋体系结构都具有以下配置:
- 资源管理和业务流程。 资源管理器通过将适量的数据、资源和计算能力分配到正确的位置,使数据湖能够一致地执行任务。
- 用于轻松访问的连接器。 借助各种工作流,用户可以轻松访问(和共享)具有所需格式的所需数据。
- 可靠分析。 良好的分析服务应该是快速、可缩放和分布式的。它还应支持多种语言的各种工作负载类别。
- 数据分类。 数据分析、编录和存档可帮助组织跟踪数据内容、质量、位置和历史记录。
- 提取、加载、转换 (ELT) 过程。 ELT 是指从多个源提取数据并将数据加载到数据湖的原始区域,然后在提取后进行清理和转换以便应用程序可以随时使用该数据的过程。
- 安全性和支持。 掩码、审核、加密和访问监视等数据保护工具可确保数据保持安全和私密。
- 管理和管理。 为了使数据湖平台尽可能顺畅运行,用户应了解其体系结构配置,以及数据和操作管理的最佳做法。
常见问题解答
-
数据湖是一个集中式存储库,可引入、存储和处理大量原始格式的数据。它可以容纳所有类型的数据,然后用于支持大数据分析、机器学习和其他形式的智能操作。
-
各行各业(包括零售、金融和娱乐)中的组织都使用数据湖平台来存储数据、收集见解并提高其服务的整体质量。例如,投资公司使用数据湖来收集和处理最新市场数据,从而能够更高效地管理投资组合风险。
-
数据湖存储各种类型的原始数据,数据科学家随后可将这些原始数据用于各种项目。数据仓库存储已清理和已处理的数据,然后这些数据可用于支持分析或操作报告,以及特定的 BI 用例。
-
-
正是如此。各行各业的主要组织都依赖于数据湖中存储的海量数据来支持智能操作、获取见解和发展壮大。
-
大量数据(包括原始数据和非结构化数据)可能难以管理,从而导致瓶颈、数据损坏、质量控制问题和性能问题。因此,请务必保持良好的治理和管理做法,这有助于顺利运行数据湖平台。
-
数据湖体系结构是指工具和技术的特定配置,采用这种配置有助于将数据湖中的数据保持集成、易于访问、井然有序和安全。