摘要:通过对大数据领域已发布的国家标准核心技术要素进行研究分析,结合标准化文件的结构和起草规则,提出大数据领域标准化文件编写过程中典型核心技术要素的技术内容、选择依据、编写方法和表述形式。
关键词:大数据 标准化 大数据标准 标准编写 核心技术要素
众所周知,大数据已成为宏观调控、国家治理、社会管理的信息基础。大数据技术有助于实现各行各业的关联性分析、差异化服务、精准化营销和量化评价,对优化业务流程、风险预测与评估等具有重要意义。随着新一代信息技术逐步成为引领和驱动我国创新发展的新动能,经营模式愈渐多元化,各行业数据结构更加复杂,增加了数据互联互通的阻碍,不利于数据资源集成的协同管理和大数据应用场景的拓展。大数据标准化工作作为提升大数据产业技术创新能力的基础支撑,对解决以上问题具有重要意义。通过大数据标准的制定,能够规范大数据相关产品规范、测试方法和应用服务等,对数据资源建设过程中的数据安全加密、数据权限管理等具有指导意义,以打破行业壁垒,促进智能制造、数字金融等信息化程度较高的行业数据进行深度融合与应用。
年3月31日,GB/T1.1—《标准化工作导则 第1部分:标准化文件的结构和起草规则》国家标准发布。标准中要求,核心技术要素属于规范性要素,是标准化文件的必备要素。在标准化文件编写的过程中,标准化对象、标准的使用者、标准编写的目的是标准技术内容选择的主要考虑因素,核心技术要素的选择与编写方法、条款类型与章条设置也会因此而产生不同的结果。核心技术要素是标准化文件的核心内容,是标准使用者声明符合某项标准时应执行的内容,决定了标准化文件的层次划分。章、条、段、列项是标准的结构,其层次设置和排序均是对核心技术要素内容的体现。大数据标准制定工作,即将不同技术内容转化为核心技术要素的过程。在编写大数据标准核心技术要素时,应熟悉典型的核心技术要素及其体现的技术内容、选择依据等,并掌握不同核心技术要素的编写方法和表述形式。
大数据领域标准中“核心技术要素”的选择与编写
1典型的核心技术要素
核心技术要素决定了单独标准或部分标准的名称,体现了不同的技术内容,也决定了标准的类型。在一项单独标准或标准的其中一个部分中,不一定包括术语、符号、试验方法等全部技术要素,但需要有明确的标准化对象和标准名称,且标准名称应能够概括该标准中所有的核心技术要素的内容。例如,在国家标准GB/T—《信息技术大数据术语》中,核心技术要素是“第2章术语和定义”,则核心技术要素的选择是“术语定义”,标准名称的补充要素为“术语”。那么,该标准不应出现分类、试验方法等其他核心技术要素。
大数据领域典型的核心技术要素主要包括术语定义、分类、数据资源目录、要求、接口和检验测试等。
1.1 术语定义
大数据领域术语定义要素的制定,即运用标准化的原理和方法,对该技术领域内某一特定语言单位进行命名和表达,建立与大数据概念体系相对应的术语体系,以实现在大数据技术领域范围内的术语统一。
需要注意的是,核心技术要素作为标准的一章与标准中仅有该核心技术要素的专门标准是不同的。例如,术语定义作为标准的一章出现在标准中,则其内容仅适用于该项大数据标准本身;而专门的术语定义标准是可以为大数据领域其他标准所使用的。
1.2 分类
基于来源、结构、性能或用途等相似特性对数据资源、大数据技术、大数据产品或服务进行有规律的排列或划分的要素,在标准中章标题可以设为“分类”。分类要素的编写不仅涉及分类原则、分类方法等,还包括命名、编码、代码等。
以GB/T—《导航电子地图数据分类与编码》为例,该项标准以解决导航电子地图数据的处理、交换和应用为需求,规定了数据分类的原则和方法,重点列举了导航电子地图数据分类代码表,即对数据分类和代码标记的结果。该项标准中的核心技术要素包括分类与编码原则、分类方法、编码方法、分类代码表、分类与代码扩充原则等。
1.3 数据资源目录
数据资源目录是数据资源管理与交换的核心,能够促进不同系统间数据开放共享安全,发挥数据资产的价值,为数据资源管理、数据交换服务、开放共享安全保障、数据服务过程监管等提供基础,保障数据开放共享与业务协同。
数据资源目录要素可以围绕目录体系框架、编目原则、核心元数据、数据元目录等技术内容进行编写。以GB/T.3—《*务信息资源目录体系第3部分:核心元数据》标准为例,其核心技术要素主要为“核心元数据”,技术内容为对核心元数据的描述。
1.4 要求
要求是一项标准中较为常见的核心技术要素,由要求型条款构成,可以表述结果是什么,也可以表述过程应如何做。例如,在大数据领域标准中,可以规定数据质量应达到什么技术条件,也可以对大数据软件产品检测方法进行规范。大数据标准使用者在声明符合标准时,应满足并且能够做到以“要求”为章标题下的内容。
例如,GB/T—《卫星导航地基增强系统数据处理中心数据接口规范》中第5.3.2节是对卫星导航地基增强系统数据处理中心与其他数据处理中心之间数据传输提出的要求,则声明符合该项标准的使用者在完成数据传输工作中需要满足并能够做到该节提出的要求。
1.5 接口
数据共享交换能够充分发挥大数据技术的价值,数据接口要素是共享交换工作得以高效率开展的前提。接口要素是针对系统间数据交换的数据和报文格式、缺省值处理方式等提出的统一要求,能够实现跨系统、跨平台间数据传输的质量控制,为各个行业数据服务质量的提升作出重要贡献。
例如,GB/T.4—《物联网信息交换和共享第4部分:数据接口》规范了数据提供方推送请求和需求方获取请求等主要接口参数,适用于系统间数据共享交换的接口设计、开发、应用以及运行维护管理。
1.6 检验测试
检验测试要素通常是对大数据产品或服务的检验、测试过程中涉及的技术指标所提出的要求,是典型的过程标准。检验测试要素所体现的主要技术内容是操作步骤、过程方法及安全警示等。通常,方法原理、反应方程、试剂材料等为检验测试做准备的内容,是从过程中提取出来的,不属于检验测试要素中的主要技术内容。
例如,GB/T—《信息技术自动识别与数据采集技术条码符号印制质量的检验》,明确规定了一维条码符号印制质量的检验方法、符号等级等内容,无需在标准中说明方法原理等内容。
2核心技术要素的选择依据
?核心技术要素的性质是规范性的,在标准化文件中起到规定标准技术内容的作用。如何选择核心技术要素是编写大数据领域标准化文件的关键环节,通常取决于标准化对象、标准的使用对象和标准制定目的。结合这3方面因素所编写出的标准更具有可操作性。大数据技术应用场景纷繁多样,数据挖掘与分析过程所涉及的关键技术较为复杂,因此,大数据标准化工作需要有系统的流程与方法确定标准化文件中的核心技术要素。
2.1 明确标准化对象
标准化文件制定工作的首要任务是明确标准化对象。如果没有明确的标准化对象,说明尚未明确需要解决的现实问题或潜在问题,标准起草工作将无法顺利开展,更不利于标准的实施与推广应用。在大数据领域标准制定过程中,针对诸多需要解决的问题,综合考虑标准需求、是否具备标准的特点、技术发展状况等因素,选择一个标准化对象,以便后续确定标准的技术内容。
以数据交换接口不统一的问题为例,如果制定相应标准,通过标准实施,首先,能够促进数据开放共享,提升系统互换性、兼容性等;其次,该标准化对象能够同时满足“共同使用”和“重复使用”两个特征;另外,数据交换模式、交换流程、交换接口等内容的确定是数据开放共享的基础,是大数据技术领域发展与进步亟待解决的关键问题。具体地,不同行业和应用场景可以制定其专有的数据交换接口标准。因此,数据交换接口标准是标准制定的对象,那么标准中可选择的核心技术要素为数据交换模式、数据交换流程、数据交换接口等,不能出现如数据质量管理规范、数据分析流程等要素。
2.2 明确标准的使用对象
针对相同的标准化对象,标准的使用对象不同,核心技术要素的内容也不相同。以“*府数据分类分级”为例,若针对的是数据拥有者或数据使用者,可以选择数据分类分级原则、方法等内容作为核心技术要素;若针对的是数据管理者,可以选择数据分类分级管理规范、数据分类分级评价等内容;若针对的是认证机构,可以选择与质量评定相关的技术要素。
2.3 明确标准制定目的
相同的标准化对象和标准的使用对象,但标准制定目的不同,选择的标准技术内容也不同。标准制定目的是否具体,决定了核心技术要素选择的针对性程度;同时,标准制定目的不同,技术内容表述的强制性程度也不同。适用性目的。为了表述大数据产品、技术服务或方法过程在具体条件下适合规定用途的能力,即适用性目的,可以选择要求型条款或推荐型条款。
接口、兼容性、互换性或相互配合的目的。大数据技术最关键的是对数据的分析及利用,若缺少促进兼容性、互换性的标准,将不利于大数据技术的研究与发展。在编写大数据领域标准化文件时,可以为了达到兼容性、互换性或相互配合的目的,提出一些技术要求。
相互理解的目的。通常,为了统一各个利益相关方对大数据领域技术内容的认识,可以选择术语、词汇、符号、分类、试验方法等核心技术要素,用陈述型条款或指示型条款进行表述。
3常见核心技术要素的编写方法
条款是标准要素的表述方式,主要包括要求、推荐、陈述、允许和指示等。结合标准化对象、标准的使用对象和标准制定目的而选取的不同的大数据领域标准核心技术要素,编写方法和表述形式均存在不同之处。条款表述形式的区别,除了体现于所使用的助动词,还体现于条文、注和脚注、示例、图和表等的选择。
3.1 术语定义
术语定义所体现的技术内容是为了统一标准使用者对大数据领域技术内容的认识,通常采用陈述型条款。条款内容的表述可以采用“条目编号+首选术语+英文对应词+定义”的形式。
3.2 分类
分类对象和内容是分类要素的两个必备要素,分类内容至少包括“分类”或“编码”。当表述分类结果时,目的是为了统一标准使用者的理解和认识,则应使用陈述型条款;当表述分类过程时,目的是规范分类相关的方法或行为,则应使用要求型条款或推荐型条款。条款内容可以通过条文、图或表的形式表述“分类和命名”“分类和编码”或“分类和标记”等。
3.3 数据资源目录
数据资源目录是数据开放共享的基础,因此,数据资源目录要素的编写可以采用陈述型条款,借助条文等形式将数据资源的编码、分类、标识符等信息在标准文本中进行罗列。
3.4 要求
大数据领域标准中要求要素所体现的技术内容根据标准化对象和标准主题而定,通过条文、图、表、注或脚注,以要求型条款的形式表达需要规范和统一的内容。条文内容除了表述清楚所提出的要求外,还需要明确为了达到要求,可证实的方法。
3.5 接口
接口要素所体现的技术内容是为了提升互操作性与兼容性有关的要求,通常采用要求型条款对尺寸或性能两方面提出匹配要求。
3.6 检验测试
检验测试要素是为了证实要求要素提供的方法,可以借助条文、图、表、示例、注或脚注的形式,提出检验测试方法、流程、等级评定等内容,通常选用要求型条款或推荐型条款。
核心技术要素决定了大数据领域标准化文件的类型,大数据领域标准中常见核心技术要素所体现的技术内容和推荐编写方法如表1所示。其编写过程应明确标准化对象、使用对象、制定目的等,再根据标准化主题、核心技术内容,选择适当的条款和表述方式。
作者
张婧慧(中电科大数据研究院有限公司)
罗雪娟(重庆市质量和标准化研究院)
薛强(中电科大数据研究院有限公司)
曹扬(中电科大数据研究院有限公司)
参考文献
[1]代红,张群,尹卓.大数据治理标准体系研究[J].大数据,,5(3):47-54.
[2]全国标准化原理与方法标准化技术委员会.标准化工作导则:第1部分 标准化文件的结构和起草规则:GB/T1.1—[S].北京:中国标准出版社,.
[3]戴炳荣,闭珊珊,杨琳,等.数据资产标准研究进展与建议[J].大数据,,6(3):36-44.
[4]金英果.大数据标准化白皮书(英文)[J].ChinaStandardization,(3):54-56.
本文来源于中国质量标准出版传媒有限公司出版的《中国质量与标准导报》第4期购买标准要来这里!!!欢迎访问中国标准在线服务网(