什么是数据湖?
了解数据湖和数据仓库之间的差异。了解如何使用 Azure 为所有分析构建可缩放的基础。
数据湖定义
本入门指南探讨了数据湖的许多优点和用例。了解什么是数据湖,为什么它很重要,并发现数据湖和数据仓库之间的差异。但首先,让我们将数据湖作为术语进行定义。
数据湖是集中式存储库,引入和存储大量原始形式的数据。然后,用户可以以这些数据为基础,进行各种分析。由于数据湖是开放的、可缩放的体系结构,因此可以容纳来自任何源的任何类型的数据,包括结构化的(数据库表、Excel 工作表)、半结构化的(XML 文件、网页)、非结构化的(图像、音频文件、推文)数据,并且不会失真。数据文件通常存储在暂存区域。这些经过清理和策展的原始数据可以各种形式满足各种用户的不同需求。数据湖为各种应用程序提供一致的核心数据,支持大数据分析、机器学习、预测分析和其他形式的智能操作。
为什么数据湖对企业很重要?
如果没有数据湖解决方案的出现,就不可能有现今这个高度连接、由见解驱动的世界。这是因为组织依赖 Azure 数据湖等综合数据湖平台来合并、集成原始数据,并确保其安全且易于访问。Azure Data Lake Storage 等可缩放存储工具可以在一个中心位置存储和保护数据,从而以最小成本消除筒仓。这为用户执行各种工作负载类别打下基础,例如大数据处理、SQL 查询、文本挖掘、流分析和机器学习。然后,这些数据可用于馈送上游数据可视化和即时报告需求。新式端到端数据平台,如 Azure Synapse Analytics,可解决以数据湖为中心的大数据体系结构的全部需求。
数据湖用例
利用架构完备的解决方案,获取无限创新可能。以下只是部分示例,说明各行业中的组织如何使用数据湖平台来优化其增长:
- 流媒体。基于订阅的流媒体公司收集和处理有关客户行为的见解,这些信息可用于改进公司的建议算法。
- 财务。投资公司使用实时收集和存储的最新市场数据来有效地管理项目组合风险。
- 医疗保健。 医疗保健组织依赖大数据来提高患者护理质量。医院使用大量历史数据来简化患者通道,从而获得更好的结果和更低的护理成本。
- 全渠道零售商。 零售商使用数据湖来捕获和合并来自多个触点的数据,包括移动设备、社交、聊天、口语和面对面。
- IoT。 硬件传感器就周围的现实世界生成大量半结构化、非结构化数据。数据湖提供了一个中心存储库,用来存储这些信息以供未来分析。
- 数字供应链。数据湖有助于制造商合并分散的仓库数据,包括 EDI 系统、XML 和 JSON。
- 销售。数据科学家和销售工程师经常生成预测模型来帮助确定客户行为并降低总体顾客流失率。
数据湖与数据仓库
现在你知道了什么是数据湖,它为什么很重要,以及它在各种组织中的使用方式。但数据湖与数据仓库有什么区别? 两者各适用于什么样的情况?
数据湖和数据仓库的相似处在于它们都存储和处理数据,但它们各有各的特性,因此都有自己的用例。因此,企业级组织的分析生态系统中通常都同时包含数据湖和数据仓库。这两类存储库协同工作,形成一个安全的端到端系统,用于存储、处理数据,并更快地获取见解。
数据湖会捕获来自各种源的关系数据和非关系数据,包括业务应用程序、移动应用、IoT 设备、社交媒体或流式传输,而无需定义数据的结构或架构,直到读取数据为止。读取架构可确保任何类型的数据都可以以原始格式存储。因此,数据湖可以大规模容纳各种数据类型,从结构化到半结构化,再到非结构化。数据湖的灵活性和可缩放性使它们成为使用不同类型的计算处理工具(如Apache Spark 或 Azure 机器学习)执行复杂数据分析的必要条件。
相较而言,数据仓库在本质上存储的是关系数据。结构或架构由为 SQL 查询操作特选、统一和优化的业务和产品要求建模或预定义。数据湖保存所有结构类型的数据,包括原始数据和未处理的数据时,而数据仓库则存储已处理和转换,且具有特定用途的数据,这些数据稍后可用于源分析或操作报告。这使得数据仓库更适用于创造更加标准化的商业智能分析形式或为已定义的业务用例。
数据湖 | 数据仓库 | |
---|---|---|
类型 | 结构化、半结构化、非结构化 | 结构化 |
关系,非关系 | 关系 | |
架构 | 读取架构 | 写入时的架构 |
格式 | 原始、未筛选 | 已处理,已审核 |
源 | 大数据、IoT、社交媒体、流数据 | 应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 以低成本轻松缩放 | 完成缩放很困难且成本高昂 |
用户 | 数据科学家、数据工程师 | 数据仓库专业人员、业务分析师 |
用例 | 机器学习、预测分析、实时分析 | 核心报告,商业智能 |
数据湖与数据湖屋
现在你已经知道数据湖与数据仓库的区别。但是数据湖与数据湖屋有什么区别? 是否必须同时拥有这两者?
尽管传统数据湖具有许多优势,但也有其弱点。由于数据湖可以容纳各种源中的所有类型的数据,因此可能会出现与质量控制、数据损坏和分区不正确相关的问题。管理不佳的数据湖不仅会损害数据完整性,还可能导致瓶颈、性能缓慢和安全风险。
这就是数据湖屋发挥作用的地方。数据湖屋是一种基于开放标准的存储解决方案,它在本质上是多面的。它可以满足数据科学家和工程师进行深入数据分析和处理的需求,也可以满足传统数据仓库专业人员出于商业智能和报告目的策展和发布数据的需求。数据湖屋的优势在于每个工作负载都可以顺畅在数据湖上方操作,而不必将数据复制到另一个预定义了结构的数据库中。这可确保每个人处理的都是最新数据,并同时减少冗余。
数据湖屋通过直接在云数据湖上方添加增量湖存储层来应对传统数据湖面临的挑战。存储层提供灵活的分析体系结构,可处理 ACID (原子性、一致性、隔离性和持续性)事务,以实现数据可靠性、流集成以及数据版本控制和架构实施等高级功能。这允许在湖上进行一系列分析活动,而不影响核心数据的一致性。数据湖屋的必要性取决于你的需求的复杂性,但其灵活性和范围使其成为许多企业组织的最佳解决方案。
数据湖 | 数据湖屋 | |
---|---|---|
类型 | 结构化、半结构化、非结构化 | 结构化、半结构化、非结构化 |
关系,非关系 | 关系,非关系 | |
架构 | 读取架构 | 读取架构,写入架构 |
格式 | 原始、未筛选、已处理、已策展 | 原始、未筛选、已处理、已策展、增量格式文件 |
源 | 大数据、IoT、社交媒体、流数据 | 大数据、IoT、社交媒体、流数据、应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 以低成本轻松缩放 | 以低成本轻松缩放 |
用户 | 数据科学家 | 业务分析师、数据工程师、数据科学家 |
用例 | 机器学习、预测分析 | 核心报告、商业智能、机器学习、预测分析 |
什么是数据湖体系结构?
数据湖本质上是一个存储库,自身没有设定的体系结构。为了充分利用其功能,你需要使用各种工具、技术和计算引擎,以帮助优化数据的集成、存储和处理。这些工具可协同工作,创建一个具有凝聚力的分层体系结构。此体系结构由大数据组成,在数据湖基础上运行。此体系结构还可以构建数据湖屋的运行结构。每个组织都有自己的唯一配置,但大多数数据湖屋的体系结构都具有以下特征:
- 资源管理和业务流程。资源管理器通过向正确位置分配适当的数据量、资源和计算能力,使数据湖能够持续执行任务。
- 轻松访问的连接器。借助各种工作流,用户可以轻松访问和共享所需的表单中所需的数据。
- 可靠分析。 好的分析服务应该是快速、可缩放且分布式的。它还应支持跨多种语言的各种工作负载类别。
- 数据分类。 数据分析、编录和存档有助于组织跟踪数据内容、质量、位置和历史记录。
- 提取、加载、转换 (ELT) 过程。 ELT 是指从多个源提取数据并加载到数据湖的原始区域的过程,然后在提取后进行清理和转换,以便应用程序可以方便地使用数据。
- 安全和支持。数据保护工具,例如掩码、审核、加密和访问监控,可确保你的数据私密且安全无虞。
- 治理和管理。 为了使数据湖平台尽可能顺畅运行,用户应掌握其体系结构配置以及数据和操作管理的最佳做法。
其他资源
浏览
常见问题解答
-
数据湖是一个集中式存储库,用于引入、存储数据,并允许处理大量原始格式数据。它可以容纳所有类型的数据,这些数据可用于支持大数据分析、机器学习和其他形式的智能操作。
-
各种行业(包括零售、金融和娱乐)的组织都使用数据湖平台来存储数据、收集见解并提高其服务的整体质量。例如,投资公司使用数据湖来收集和处理最新数据,使他们能够更高效地管理项目组合风险。
-
数据湖存储所有类型的原始数据,然后数据科学家可以将其用于各种项目。数据仓库存储已清理和已处理的数据,这些数据可用于源分析或操作报告,以及特定的商业智能用例。
-
绝对性。所有行业的大型组织都依赖数据湖中存储的大量数据来实现智能操作、获取见解并实现组织成长。
-
大量数据(包括原始数据和非结构化数据)可能难以管理,从而导致瓶颈、数据损坏、质量控制问题和性能问题。因此,请务必保持良好的治理和管理做法,帮助你顺利运数据湖平台。
-
数据湖体系结构是指特定的工具和技术配置,该配置有助于集成数据湖中的数据,确保其易于访问、井然有序且安全。
免费帐户
免费试用 Azure 云计算服务,最长达 30 天。
即用即付
开始使用即用即付定价。无前期承诺 - 可随时取消。