关于数据质量的关键维度

 

以下文章来源于转型数据治理 ,作者lishan

 

近期大家都在讨论数据资产、数据要素、数据入表等热门话题。关于数据质量,可能由于已经有很成熟的方法论,也有可能就是数据质量像是天然各企业组织都能够意识到它的重要性。但是根据个人的工作经验,首先数据质量不管在数据治理及数据管理的什么时期都是永远首先需要解决的问题,就像企业在做产品一样,没有好的产品质量在商业运作上总会是一个严重的障碍。而且个人意识到像做一些具体数据管理工作的人员来说,也许数据质量更是首先需要考虑的事情。

当然到了当前阶段,数据质量不会是仅仅是关于数据值的质量,应也必须关注数据结构(架构)的质量、数据服务的质量等方面的内容。

谈到数据质量管理,我们必须将数据质量作为流程进行工程化的来管理,这样会更有利于数据质量的提升及价值化,也可以将数据的生命周期与数据质量管理密切关联到一起,从而保障数据质量的持续化提升。

在这里,我们来谈谈关于数据质量的核心质量维度及其定义,在实践过程,发现有不少的客户对于这些维度的理解及如何应用还是有一些不够清晰。

关于数据质量关键维度,在DAMA UK发表的白皮书中已有明确定义过。而且也做了详细说明。在这里我将相关内容翻译后分享。如有异议可参考原文或其他相关文献。这里所述内容仅供参考。

一、定义数据质量维度

数据质量维度一词多年来一直被广泛用于描述数据质量的衡量标准。我们来定义数据质量关键维度的目标是为关键的数据质量维度提供上下文,以便于行业专业人士和业务利益相关者能够达成共识。

维度是帮助我们衡量和沟通数据质量的指标,而不是定义或代表数据本身的含义。

数据质量(DQ)维度是数据管理专业人士用来描述数据特征*的公认术语,可以根据定义的标准进行测量或评估,以确定数据质量。

例如:

测试数据集测量为完成93%

测试数据集中数据项的准确性评估结果为84%

DQ维度不同于其他维度术语,不应与之混淆,例如:数据管理的其他方面,例如数据仓库维度或数据立方体维度,其中维度是指空间的结构或物质对象在时间上的位置。

在本文中,术语“数据质量维度”是指:为了了解数据的质量,可以测量或评估的一些对象(数据项、记录、数据集或数据库)。

二、关于数据质量维度的应用

在尝试使用数据质量维度之前,组织需要就数据评估所依据的质量规则达成一致。这些规则应基于关键的六个数据质量维度、数据的组织要求以及不符合这些规则的数据对组织的影响来制定。

数据通常只有在支持业务流程或组织决策时才有价值。商定的数据质量规则应考虑到数据可以为组织提供的价值。如果确定数据在特定上下文中具有非常高的值,那么这可能表明在该上下文中需要更严格的数据质量规则。

三、如何使用数据质量维度

组织根据其业务背景、要求、风险水平等选择数据质量维度和相关维度阈值。请注意,每个维度可能有不同的权重,为了获得数据质量的准确衡量,组织需要确定每个维度对整个数据质量的贡献有多大。

典型的数据质量评估方法可能是:

1.确定哪些数据项需要评估数据质量,通常这些数据项对业务运营和相关管理报告至关重要

2.评估要使用的数据质量维度及其相关权重

3.对于每个数据质量维度,定义表示好质量数据和坏质量数据的值或范围。

4.将评估标准应用于数据项

5.审查结果并确定数据质量是否可接受

6.在适当的情况下采取纠正措施,例如清理数据和改进数据处理流程,以防止未来再次发生

7.定期重复上述操作,以监控数据质量的趋势

可能需要不同数据质量检查的输出,以确定数据对特定业务需求的支持程度。如果特定的业务需求没有充分反映在数据质量规则中,则数据质量检查将无法提供对适用性的有效评估。同样,在进行重复的数据质量评估时,您应该检查以确定自上次评估以来业务数据需求是否发生了变化。

虽然大多数数据质量维度可以通过分析数据本身来评估,但评估数据准确性只能通过以下方式之一实现:根据数据所代表的实际情况评估数据,例如,当员工访问某处房产时;或根据权威参考数据集评估数据,例如,根据官方选民名单检查客户详细信息。

不同数据质量维度应用于数据集的示例

四、六个核心的数据质量维度

数据质量的六个核心维度是:

1.完整性、2.唯一性、3.及时性、4.有效性、5.准确性、6.一致性

1.完整性

 首先测量关键数据的完整性;非关键数据的不完整性对业务来说可能无关紧要。

2.唯一性

唯一性与重复程度的评估相反

3.及时性

于时间对静态和动态记录的作用不同,每个数据集将具有不同比例的易失性和非易失性数据。

4.有效性

5.准确性

6.一致性

五、其他数据质量注意事项
理解和管理这六个核心维度至关重要。然而,还有其他因素可能对数据的有效使用产生影响。即使所有六个维度都被认为是令人满意的,数据仍然可能无法实现目标。
数据可能是完全完整、唯一、及时、有效、准确和及时的。然而,如果数据项是英文的,而用户不懂英文,那么它将毫无用处。询问这些关于您的数据的附加问题可能会很有用。

数据的可用性——它是否可以理解、简单、相关、可访问、可维护并且具有正确的精度?

数据的时间问题(超出了及时性本身)——它是否稳定,并对合法的更改请求做出响应?

数据的灵活性——它是否与其他数据具有可比性和兼容性,是否有有用的分组和分类?它可以重新调整用途吗?操作起来容易吗?

对数据的信心——数据治理、数据保护和数据安全是否到位?数据的信誉是什么?它是经过验证的还是可验证的?

数据的价值——数据是否有良好的成本/效益案例?它是否得到了最佳使用?它是否危及人们的安全或隐私或企业的法律责任?它是否支持或违背企业形象或企业信息?

六、术语表

 

 

首页    行业动态    科技前沿    关于数据质量的关键维度
创建时间:2023-12-01 08:27
浏览量:0