科技日报记者 崔爽
数据资源是国家基础资源的重要组成部分,是人工智能的“养料”。数据资源的规模和质量直接影响人工智能的发展水平。
我国是数据生产大国。《全国数据资源调查报告(2023)》显示,2023年,我国数据生产总量达到32.85泽字节(ZB),数据年产量增长22.44%。“然而,庞大的生产总量中仅2.9%的数据被保存,大量数据产而未采、采而未存,造成极大浪费。”接受科技日报记者采访时,全国人大代表、华中科技大学副校长冯丹强调,从全球来看,我国的数据存留率(2.9%)不及发达国家(如美国为7.3%)的一半,加快我国数据资源储备、提升数据资源规模和质量迫在眉睫。
在冯丹看来,目前,国家数据资源储备的战略规划相对不足,数据资源储备相对分散,各行业数据保存规模和质量参差不齐。
“据统计,每年未使用的数据占比约4成,各部门各企业对扩大数据资源保存规模的积极性低,无法形成高质量数据集。数据分散储备还造成总体成本增加,缺乏规模效应,技术、管理和维护都需要重复投入。”冯丹介绍,各部门各企业在储备数据资源时因无据可依,导致对于短期价值不明显,但具备长期潜在价值的数据不保存或者少保存,这也是当前人工智能中文语料严重不足的重要原因之一。
另外,由于缺少国家数据资源储备的技术保障,给供应和成本造成巨大挑战。
为此,冯丹建议,加快制定国家数据资源储备战略规划,实施存力中心建设工程;完善数据资源政策和标准体系,制定数据资源存储要求,推动各部门各企业加大数据资源储备;设立数据资源存储技术专项,提升国家数据资源储备的技术保障能力,支撑我国加速从数据大国迈向数据强国,助推人工智能高质量发展。
“建议国家相关部门牵头研究我国数据资源储备整体布局,制定国家数据资源储备战略规划与目标。”冯丹谈道,可以分阶段实施,首先出台国家数据资源储备总体战略和指导意见,明确发展方向和基本原则,出台相关法律法规,规范数据资源储备,再启动一批试点建设项目,并制定关键行业的数据采集、存储规范。建立国家数据资源共享平台,初步形成1(国家数据资源共享平台)+N(重点区域/行业数据资源储备中心)的国家数据资源储备布局。最后,建立全面高效的数据资源储备体系,形成战略储备+公共储备+市场储备的分级数据储备机制,推动数据储备技术达到国际先进水平。
在数据资源政策和标准体系方面,冯丹建议,制定公共数据、行业数据的存储标准,要求各部门各企业在数据交易、流通等活动中落实数据存储标准,制定切实可行的分类数据存储范围、频次和周期实施办法。
在存储技术储备方面,冯丹建议,加大对新型闪存存储器、新型温冷数据存储、数据流通技术的创新资金投入和产业扶持力度;培育数据资源存储技术产业生态,建设国家数据存储创新示范区,开展数据资源存储技术应用工程试点等。以国际难题“数据保存100年、1000年”为牵引,支持高校、科研院所、领军存储企业等联合开展专项研究,提升国家数据资源储备的技术保障能力。