面对国际智能鸿沟,专家呼吁—大模型不能只服务大语种

2025-07-31 20:14:45 来源: 点击数:

科技日报记者 都芃

“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”在2025WAIC期间举办的科大讯飞高级别高水平多语言基座大模型国际学术研讨会上,塞尔维亚诺维萨德大学技术科学学院主任弗拉多·德力克直言,由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,成为此次研讨会各国专家共同关注的核心议题。

国际合作开发小语种资源

大语言模型作为一种与人类语言紧密联系的人工智能技术,天生就和语言背后承载的文化高度相关。不同语言中凝结着不同地区、民族的独特文化,在大模型中,这些语言背后承载的地区和民族文化不应被抹除。

但现实情况是,许多小语种在大模型发展浪潮中没有得到足够重视。此前,创新工场董事长兼零一万物首席执行官李开复在一次主题演讲中说,美国大模型的绝大部分训练语料为英文,小语种表现不佳。例如,大模型Llama的训练语料中,英语语料占比高达89.7%,俄语、德语、日语、荷兰语等语种占比均不足1%。

要训练小语种语言的大模型,数据资源是无法绕开的一道坎。“做语言大模型的技术方法可以共享,但每种语言的专门数据非常重要。”匈牙利语言学研究中心总干事加博尔·普罗谢基举例说,匈牙利语在欧洲较为特殊,不属于印欧语系,且匈牙利语作为黏着性语言,具有复杂的词缀组合及自由语序,这为大语言模型的token(字符数)划分和长距离依赖建模带来挑战。因此,根据其他语言语料训练出的大模型通用算法不一定适用于匈牙利语,必须要进行专门调整和优化。

“这不仅需要决心和想法,更需要基础设施的支持,特别是数据基础设施的支持。”匈牙利语言学研究中心高级顾问托马斯·瓦拉迪认为,有自己独立语言的各个国家都有责任开展相关数据积累工作。这不单是简单堆积原始数据,更要提供经过专业标注的数据集,使大语言模型开发者能够在混合体系中实现对该语言的均衡优化表征。

面对大模型导致的不同语种间的数字鸿沟,国际合作成为重要解决路径。

加博尔·普罗谢基介绍,目前开发PULI模型家族的团队已与中国同行开展合作,通过HuGME大模型评估框架实现了从训练、语料建设到实际应用的完整闭环。

弗拉多·德力克团队也正与科大讯飞展开合作。他说,希望通过与科大讯飞的合作,将本国语言技术纳入全球AI生态。双方已启动合作规划,计划将塞尔维亚语等语言接入科大讯飞的翻译设备与智能应用系统,并以服务2027年贝尔格莱德专业类世界博览会为阶段目标,打造本地化大模型。

多语种智能技术助企业出海

多语言大模型的发展不仅关乎技术平权,对于推动我国企业出海也具有重要意义。在东南亚的大街小巷,中国智能手机的身影无处不在;在中亚、南美洲等地区的马路上,中国汽车往来穿梭……高度智能化是中国制造如今在全球鲜明的形象标签,也是面对全球市场的核心竞争力。在“中国智造”出海进程中,多语种智能技术功不可没。

我国企业正发力构建多语言大模型。例如,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台(套)设备提供语音交互支持,在非洲、东南亚等地区落地,为“中国智造”走出去提供语言与AI能力保障。“我们希望构建全方位的多语言大模型及其应用,给世界提供‘第二种选择’。”科大讯飞研究院院长刘聪在研讨会上说。

刘聪还展望了未来多语言模型的三个核心发展方向。一是推进“语音+文本”多模态数据的共建共享,打通不同模态之间的语义壁垒。二是打造具备原生多语种语音能力的大模型底座,增强模型对全球语言生态的原生感知力。三是构建融合跨语言知识迁移能力的多语言通用大模型,实现不同语种间的知识迁移与泛化能力提升,全面支撑全球多语言AI应用发展。

刘聪表示,科大讯飞将携手全球伙伴共建开放平台,共享技术成果和应用场景,助力不同文化背景的国家弥合智能鸿沟,共同构建更加包容、普惠的全球人工智能生态。

责任编辑:裴宸纬

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览