科技日报记者 崔爽
随着人工智能技术进入深水区,央国企在推进智能化转型过程中遭遇“数据瓶颈”日益凸显,如何破解这一困局,成为数字经济发展中的关键问题。
国务院国资委规划发展局副局长胡武婕认为,“随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”
但同时,央国企在数据治理方面面临特殊挑战:历史积累的庞杂语料分散在各个业务系统中,价值数据难以有效提取;通用大模型在专业场景中存在知识幻觉、专业性不足等问题;缺乏统一标准导致数据质量评估困难,这些问题共同构成了央国企智能化转型道路上的“数据鸿沟”。
在2025世界人工智能大会上,科大讯飞展出的“星火知识库”将焦点对准“高质量数据集的稀缺与建设”这一难题,提供了一个破题样板。
据介绍,这一平台提供了一套系统化解决方案。其创新之处在于,它并非简单的数据处理工具,而是构建了一个从多源语料获取、稀缺数据合成、高质量数据加工到模型训练的完整生态闭环。其核心技术突破体现在全自动化的知识构建能力上——通过多教师模型混合蒸馏、知识融合增强等前沿技术,实现了行业专业知识的自动合成,无需依赖传统昂贵且低效的人工标注流程。实际应用数据显示,平台可将数据构建成本降低90%,知识构建周期缩短50%,同时使模型效果提升15%。
在技术架构层面,平台展现出三大差异化优势:具有强大的多元异构数据处理能力、建立了全方位的数据质量评估体系、通过正向追踪和反向溯源机制确保知识构建过程的透明性和可解释性。
另外,针对央国企技术团队特点,平台采用零代码画布式建模工具,用户通过简单的组件拖拽即可自定义知识加工流程,节点参数配置界面支持精细化调整,而断点调试功能则确保了处理结果的可控性,真正实现“业务驱动”的智能化转型。
以中石油为例,通过部署讯飞知识工程平台,中石油成功构建了覆盖油气全产业链的高质量数据集,并以此训练出专属的“昆仑大模型”,已成功应用于57个业务场景。
而通过中石油等多家央国企项目的实践,讯飞也进一步沉淀了丰富的行业知识构建模板和成熟的DREAM大模型构建框架,并在多家央国企项目中得到验证,形成覆盖能源、金融、制造等多个行业的知识构建模板。