你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

数据质量和质量监视

在 Azure Operator Insights 平台上运行的每个数据产品都内置了对数据质量监视的支持功能。 数据质量至关重要,因为它可确保做出决策所需的信息准确、可靠且可信。 它可以防止发生代价高昂的错误,在客户和监管机构间建立信誉,并启用个性化体验。

Azure Operator Insights 平台会在以下情况下监视数据质量:数据被引入数据产品输入存储时(下图中的第一个 AOI 数据产品存储块),以及处理数据并提供给客户后(下图中的 AOI 数据产品计算)。

适用于 Azure Operator Insights 的引入代理和数据产品的示意图

质量维度

数据质量维度是定义数据质量的各个方面或特征。 Azure Operator Insights 支持以下维度:

  • 准确性 - 指数据真实反映现实的程度,例如正确的名称、地址和最新数据。 通过高数据准确性,可以生成可信任的分析,并完成正确的报告和自信的决策。
  • 完整性 - 指特定用途所需的所有数据是否存在并可供使用。 完整性不仅适用于数据项级别,也适用于记录级别。 完整性有助于了解缺失数据是否会影响来自数据的见解的可靠性。
  • 唯一性 - 指数据集中没有重复项。
  • 一致性 - 指同一数据元素在不同源之间或随时间推移是否会发生冲突。 一致性可确保数据是统一的,可以跨不同的源进行比较。
  • 时间线 - 指数据是否为最新且在需要时可用。 时间线可确保数据与决策相关且有用。
  • 有效性 - 指数据是否符合定义的规则或约束集。

指标

所有数据质量维度都由 Azure Operator Insights 平台生成的质量指标涵盖。 有两种类型的质量指标:

  • 基本 - 所有数据产品的标准检查集。
  • 自定义 - 自定义检查集,允许所有数据产品实现特定于其产品的检查。

下表提供了平台生成的基本质量指标。

指标 维度 数据源
引入的行数 及时 引入的
所需列为 NULL 的行数 完整性 引入的
针对架构验证失败的行数 有效期 引入的
筛选出的行数 完整性 引入的
已处理的行数 及时 已处理
不包含所需数据的不完整行数 完整性 已处理
重复行数 唯一性 已处理
记录生成和可用于查询的总体滞后的百分位数 及时 已处理
记录生成和引入输入存储之间的滞后百分位数 及时 已处理
引入和处理数据之间的滞后百分位数 及时 已处理
处理的数据与可用于查询的数据之间的滞后百分位数 及时 已处理
具体化视图的年龄 及时 已处理

根据数据产品实现自定义数据质量指标。 这些指标涵盖准确性和一致性维度。 数据产品文档包含可用的自定义质量指标的说明。

监视

所有 Azure Operator Insight 数据产品都部署了一个显示质量指标的仪表板。 你可以使用仪表板监视其数据的质量。

所有数据质量指标都将保存到 Data Product ADX 表。 若要浏览数据质量指标,可以使用标准数据产品 KQL 终结点,然后根据需要扩展仪表板。