我国高质量数据集系列标准加速研制推进

2026-03-17 14:44:46 来源: 科技日报 点击数:

科技日报记者 马爱平

3月17日,记者从中国电子技术标准化研究院获悉,目前,我国《高质量数据集分类指南》《高质量数据集格式要求》《高质量数据集数据标注要求》《高质量数据集质量评测规范》等国家标准已形成征求意见稿,《高质量数据集建设指南》也已完成拟立项公示。

中国电子技术标准化研究院副院长范科峰表示,此次系列标准的研制与推进,直击当前数据集建设中方法论缺失、格式不统一、评测脱节等产业痛点,形成了全链条解决方案,将为我国数据产业高质量发展提供系统性指引,也将进一步夯实人工智能产业发展的数智底座,助力数据要素市场化配置。

范科峰表示,为保障系列标准落地,中国电子技术标准化研究院赛西实验室,已提供从数据采集到模型验证的全链条技术支撑,同时该院建成的“数元DataKernel”数据测评体系,可进一步为系列标准的实施提供技术支撑。

据介绍,《高质量数据集建设指南》提出高质量数据集全生命周期系统化指引,覆盖数据需求、规划、采集、预处理、标注、模型验证等环节,形成“模型验证驱动迭代”的闭环机制。这一机制将模型性能表现作为反向验证数据质量的核心依据,使数据质量不再是抽象描述,而是可量化、可追溯的业务指标,从根本上解决了数据质量与模型效果脱节的问题。

针对数据标注这一关键环节,《高质量数据集数据标注要求》系统规范了参与方职责、流程管理、技术标准和质量管控,明确不同数据模态的标注规范,实现标注全过程可追溯,将推动数据标注产业向专业化、智能化方向升级。《高质量数据集格式要求》统一了数据标识、内容结构、来源版本、授权类型等元数据标准,为数据流通建立了通用“语言”,有效提升数据集读取、使用和共享效率。

在质量评价层面,《高质量数据集质量评测规范》构建了“说明文档、数据质量、模型应用”三维度评价体系,从数据完整性、准确性、时效性到模型适配性等多个方面设置量化指标。配套的“数据+模型”综合评测方法,通过自动化测试与专家评审相结合的方式,形成标准化评测报告与证书,为数据交付验收、合同指标落地提供了可操作依据。

责任编辑:王倩
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览