科技日报记者 都芃
“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”7月28日,在2025世界人工智能大会期间举办的科大讯飞高级别高水平多语言基座大模型国际学术研讨会上,塞尔维亚诺维萨德大学技术科学学院主任弗拉多·德力克教授直言,由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,成为此次研讨会各国专家共同关注的核心议题。
弥合语种数字鸿沟
大语言模型作为一种与人类语言紧密联系的人工智能技术,天生就和语言背后承载的文化高度相关。不同语言中凝结着不同地区、民族的独特文化,当这些语言转化为大模型技术时,其背后承载的地区和民族文化不应被抹除。
但现实情况是,许多小语种在大模型发展浪潮中没有得到足够重视。此前,创新工场董事长兼零一万物CEO李开复在一次主题演讲中谈道,美国大模型的绝大部分训练语料为英文,小语种表现不佳,“大语言模型完全忽视了7000个语言,会加速它们的绝种”。
例如,脸书公司推出的大模型LIama的训练语料中,英语语料占比高达89.7%。俄语、德语、日语、荷兰语等其他各类语种占比均不足1%。例如,俄语占比仅为0.13%,这也导致实测结果显示,用户使用俄语交互时,LIama大模型效果体验远落后于英语。
要训练小语种语言的大模型,数据资源是绕不过去的一道坎。“做语言大模型的技术方法可以共享,但每种语言的专门数据非常重要。”匈牙利语言学研究中心总干事加博尔·普罗塞卡以匈牙利语为例介绍,匈牙利语在欧洲较为特殊,其不属于印欧语系,且匈牙利语作为粘着性语言,具有复杂的词缀组合及自由语序,这为大语言模型的token(大模型处理文本的基本单位)划分和长距离依赖建模带来独特挑战。因此,根据其他语言语料训练出的大模型通用算法不一定适用于匈牙利语,必须要进行专门调整和优化。
“这不仅需要决心和想法,更需要基础设施的支持,特别是数据基础设施至为关键。”匈牙利语言学研究中心高级顾问托马斯·瓦拉迪认为,有自己独立语言的各个国家都有责任开展相关数据积累工作,不仅仅是简单堆积原始数据,更要提供经过专业标注的数据集,使大语言模型开发者能够在该混合体系中实现对该语言的均衡优化表征。
面对大模型导致的不同语种间的数字鸿沟,国际合作成为重要解决路径。加博尔·普罗塞卡介绍,目前其团队开发的PULI模型家族已与中国同行开展合作,通过HuGME评估框架实现了从训练、语料建设到实际应用的完整闭环。
同时,弗拉多·德力克团队也正在与中国人工智能企业科大讯飞展开合作。他表示,希望通过与科大讯飞的合作,将本国语言技术纳入全球AI生态。双方已启动合作规划,计划将塞尔维亚语及相关南斯拉夫语言接入科大讯飞的翻译设备与智能应用系统,并以2027年贝尔格莱德世博会为阶段目标,打造本地化大模型。
助力“中国智造”走向全球
在多语言多语种大模型技术领域,中国企业正在全面发力。其发展不仅关乎技术平权,在中国企业加速出海的当下,也有着重要的现实意义。
在东南亚的大街小巷,中国智能手机的身影无处不在;在中亚、南美洲等地的马路上,中国汽车往来穿梭。高度智能化是如今“中国智造”在全球最鲜明的形象标签,也是其面对全球市场的核心竞争力。多语种智能技术在其中功不可没。
例如,搭载讯飞智能车载语音系统的车型已能够实现23个主要语种交互,畅销亚洲、欧洲、中东、南美等地的60多个国家和地区,让海外用户体验来自中国的智能用车服务。
目前,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,在非洲、东南亚等国家实地落地,为“中国智造”走出去提供语言与AI能力保障。在AI技术生态建设方面,科大讯飞已开放272项AI能力专门面向多语种需求。
科大讯飞研究院院长刘聪在研讨会上明确表示:“我们希望构建全方位的多语言大模型和它的应用,给世界提供‘第二种选择’。”他介绍,最新升级的星火大模型X1可以支持130+语种,在阿语、德语、法语、韩语、日语等重点语种整体效果领跑国际主流大模型。通过混合语种路由等技术创新,星火语音大模型支持100个语种语音识别,星火语音合成大模型支持55个语种语音合成,效果业内领先。
刘聪还系统阐述了未来多语言模型的三个核心发展方向:一是推进“语音+文本”多模态数据的共建共享,打通不同模态之间的语义壁垒;二是打造具备原生多语种语音能力的大模型底座,增强模型对全球语言生态的原生感知力;三是构建融合跨语言知识迁移能力的多语言通用大模型,实现不同语种间的知识迁移与泛化能力提升,全面支撑全球多语言AI应用发展。
他表示,科大讯飞将携手全球伙伴共建开放平台,共享技术成果和应用场景,用“中国智慧”助力不同文化背景的国家弥合智能鸿沟,共同构建更加包容、更加普惠的全球人工智能生态。