科技日报记者 马爱平
3月17日,记者从中国电子技术标准化研究院获悉,目前,我国《高质量数据集分类指南》《高质量数据集格式要求》《高质量数据集数据标注要求》《高质量数据集质量评测规范》等国家标准已形成征求意见稿,《高质量数据集建设指南》也已完成拟立项公示。
中国电子技术标准化研究院副院长范科峰表示,此次系列标准的研制与推进,直击当前数据集建设中方法论缺失、格式不统一、评测脱节等产业痛点,形成了全链条解决方案,将为我国数据产业高质量发展提供系统性指引,也将进一步夯实人工智能产业发展的数智底座,助力数据要素市场化配置。
范科峰表示,为保障系列标准落地,中国电子技术标准化研究院赛西实验室,已提供从数据采集到模型验证的全链条技术支撑,同时该院建成的“数元DataKernel”数据测评体系,可进一步为系列标准的实施提供技术支撑。
据介绍,《高质量数据集建设指南》提出高质量数据集全生命周期系统化指引,覆盖数据需求、规划、采集、预处理、标注、模型验证等环节,形成“模型验证驱动迭代”的闭环机制。这一机制将模型性能表现作为反向验证数据质量的核心依据,使数据质量不再是抽象描述,而是可量化、可追溯的业务指标,从根本上解决了数据质量与模型效果脱节的问题。
针对数据标注这一关键环节,《高质量数据集数据标注要求》系统规范了参与方职责、流程管理、技术标准和质量管控,明确不同数据模态的标注规范,实现标注全过程可追溯,将推动数据标注产业向专业化、智能化方向升级。《高质量数据集格式要求》统一了数据标识、内容结构、来源版本、授权类型等元数据标准,为数据流通建立了通用“语言”,有效提升数据集读取、使用和共享效率。
在质量评价层面,《高质量数据集质量评测规范》构建了“说明文档、数据质量、模型应用”三维度评价体系,从数据完整性、准确性、时效性到模型适配性等多个方面设置量化指标。配套的“数据+模型”综合评测方法,通过自动化测试与专家评审相结合的方式,形成标准化评测报告与证书,为数据交付验收、合同指标落地提供了可操作依据。

网友评论