GB/T 36344-2018 信息技术 数据质量评价指标
Information technology—Evaluation indicators for data quality
主要内容
主要包含以下内容:
适用范围
规定了数据质量评价指标的框架和说明,适用于数据生存周期各个阶段的数据质量评价。
数据质量评价指标框架
从六个方面对数据质量进行评价:
- 规范性:指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。例如,数据的格式、编码方式、命名规范等是否遵循既定的标准和规则,数据的取值范围是否符合要求等。
- 完整性:按照数据规则要求,数据元素被赋予数值的程度。包括数据记录是否完整,是否存在缺失值,数据的必填项是否都有填写等。比如,在一个客户信息表中,客户的姓名、联系方式等必填字段是否都有相应的值 。
- 准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。即数据是否正确反映了客观事实,数据的内容是否准确无误,有无错误或偏差 。例如,统计报表中的数据是否与实际发生的业务数据一致。
- 一致性:数据与其他特定上下文中使用的数据无矛盾的程度。包括相同数据在不同数据源或不同系统中的一致性,以及关联数据之间的逻辑一致性。比如,在多个相关的数据表中,同一客户的基本信息是否一致,不同部门对同一业务数据的记录是否相符 。
- 时效性:数据在时间变化中的正确程度。关注数据的更新速度和及时性,数据是否在规定的时间内得到更新和维护,以及数据的有效期是否得到合理的管理。例如,市场数据、新闻数据等是否及时更新,以反映最新的情况 。
- 可访问性:数据能被访问的程度。主要考量数据是否易于获取和使用,包括数据的存储位置是否便于访问,数据的访问权限是否合理设置,以及数据的查询和检索功能是否完善等 。
- 为数据质量的评估提供了一个标准化的框架和方法,使得不同组织和机构在评估数据质量时有了统一的依据和标准,有助于提高数据质量评估的准确性和一致性。
- 帮助组织更好地了解和管理数据质量,通过对各个指标的评估和分析,组织可以发现数据质量存在的问题和不足,进而采取相应的措施进行改进和优化,提高数据的价值和可用性。
- 促进数据的共享和流通,在数据共享和流通的过程中,数据质量是一个关键因素。通过遵循该标准对数据质量进行评估和提升,可以增强数据使用者对数据的信任度,促进数据的共享和流通,推动数据要素市场的发展。
术语和定义
1 数据 data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
注:可以通过人工或自动手段处理数据。
2 元数据 metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
3 数据质量 data quality
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
4 原始数据 raw data
终端用户所存储使用的各种未经过处理或简化的数据。
注:原始数据有多种存在形式,如文本数据,图像数据,音频数据或者几种数据混合存在。
5 数据生存周期 data lifecycle
将原始数据转化为可用于行动的知识的一组过程。
6 数据集 dataset
具有一定主题,可以标识并可以被计算机化处理的数据集合。
7 数据模型 data model
对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和战略,以及管理和评价组织所需要的数据。
注 1:在从高到低的不同抽象层次表示数据时,通常会区分概念模型(与某些努力相关的概念组成的模型)、逻辑模型和物理模型。
注 2:所使用数据模型的使用周境的边界的正规描述,称为上下文模式。
注 3:数据模型标识实体、域(属性)以及与其他数据的关系(关联),提供数据和数据间关系的概念视图。
示例 1:由框图组成的语义数据模型,这种框代表对业务有意义的事务集,如“人”或“行动”,以及描述这类实体对之 间关系的线条。
8 数据标准 data standard
数据的命名、定义、结构和取值规范方面的规则和基准。
暂无评论内容