“青海省最美科技工作者”多拉：让古老藏语借AI出圈

2026-05-29 21:45:32 来源: 科技日报点击数：

科技日报记者张添福通讯员范旭光

“请讲述格萨尔王的故事。”用户发出指令，手机即刻生成对应内容，同步完成汉语、藏语与英语互译，响应精准流畅。这便是近期备受关注的智达藏语大模型。凭借高效的响应速度、强大的多语言处理能力，智达为用户带来便捷精准的跨语言交互体验。

这款于4月22日在北京正式发布的智能产品，上线一个月时间，人机互动量超1000万次，被业内称作藏文版“豆包”。而在产品火热出圈之际，其研发带头人——青海师范大学教授多拉，已带领团队规划新的工作任务：“我们计划完成121个藏语次方言数字化的全覆盖。”

5月29日，在2026年全国科技工作者日青海主场活动暨“青海省最美科技工作者”发布仪式上，多拉获得2026年“青海省最美科技工作者”称号。

初心如磐，扛起藏语智能研发重任

多拉大半辈子在计算语言学与藏文信息处理领域摸爬滚打。

藏语属于典型小语种，方言体系繁杂、口语差异大、书写系统特殊，语料储备不足、识别难度极高，国内尚无成熟技术可借鉴，藏语人工智能研发近乎一片空白。

“藏语包含安多、康巴、卫藏三大方言，还有上百种次方言与地方土语，是全球小语种AI研发最难攻克的领域之一。”多拉坦言，因工程量浩大，国内鲜有机构愿意涉足藏语大模型研发。多拉团队人员紧张，却要覆盖基础研究、标准研制、数据构建、算法设计、模型训练、成果转化等全链条工作，攻坚难度不言而喻。

面对重重挑战，多拉迎难而上。针对专业人才短缺的难题，他依托省内唯一的计算机科学与技术博士点，自主培育人工智能领域专业人才，带领团队从零起步，开启藏语人工智能领域的艰苦攻坚之路。

高质量语料是大模型研发的核心根基。为补齐藏语语料短板，2023年7月，多拉将团队分为四组，奔赴青海六个自治州及甘肃甘南、四川阿坝等一线实地调研，采集方言语音、地方文献、县域史料；同时合规梳理网络公开语料，规避知识产权风险。

历时一年半，团队建成规模达2万小时的藏语语音语料库，藏语口语识别准确率突破92%。

“500小时语音，就需要47万个句子来支撑，高峰时期有97名数据标注人员同步开展语音标注工作。”多拉介绍，团队前两年的核心工作，就是夯实藏语智能大模型的数据底座。

2024年9月，智达藏语大模型进入核心研发阶段。面对任务繁重、技术路径复杂的多重压力，多拉身兼科研、教学、管理多重职责：白天授课育人、统筹实验室日常运行，夜晚伏案钻研技术，常年无休、加班攻坚，成为实验室最忙碌的人。

他带领团队聚焦藏语语音转写、语音合成、多语种翻译、OCR文字识别、AI人机交互五大核心技术，逐个破解技术壁垒。

“在这些技术中，机器翻译的语种从2种拓展至20多种，翻译领域扩至新闻、法律、文献、古籍、文学、医疗、教育、农牧等14个，翻译准确率超94%。”多拉说，在OCR文字识别技术中，团队攻克汉藏英混合场景、混合图表、复杂版面的文字等识别难题，进一步完善了藏语智能数据体系。

成果落地，打造国家级备案大模型

历经日日夜夜的潜心打磨，2026年2月，智达藏语大模型顺利通过国家相关部门的生成式AI产品备案，成为青海省首个民族语言智能领域国家级备案大模型产品。该产品实现藏语“听、说、读、写、译”多模态智能处理，基于大模型底座，适配了安多、卫藏、康巴三大方言识别，开发了多语混排文档识别、语音翻译、文字翻译、古籍检索、有声听书及藏语数字人播报与字幕转写软件应用矩阵。

“智达采用国产自主技术架构，打通文字、语音、图像多模态交互壁垒，搭建‘1+8’全场景产品矩阵，构建了体系化、集群化的智能服务体系。”多拉介绍，产品贴合牧区群众使用习惯，实现无障碍人机交互，让前沿人工智能技术落地民生，真正做到群众能用、好用、常用。

在过去，藏语信息化、智能化处理长期面临理论方法缺失、技术探索滞后、数据资源匮乏等难题，这是数字化发展的核心瓶颈。

近年来，多拉潜心钻研，聚焦藏文智能处理领域，攻克一道道技术难关，取得一系列原创性科研成果。他牵头推进民族语言资源建设与标准化工作，主导制定《信息处理用藏文分词规范》《信息处理用藏语词类标记集》等5项国家标准，填补藏文信息处理无统一规范的空白，为全国少数民族语言数字化标准化建设提供重要范本。

他还牵头实施藏文典籍数字化保护工程，聚焦藏医药古籍、历史文献等珍贵文化遗产，攻克古籍数字化整理、智能检索、深度解析及机器翻译等关键技术，搭建大规模藏文文献数字资源库，让千年古籍实现永久保存、高效利用，以科技守护民族文脉。

此外，多拉作为技术主导研发的“云藏”搜索引擎，打造了国内权威藏文信息综合服务平台，服务全球90多个国家和地区的用户，被誉为藏文版“百度”，让古老璀璨的藏文化搭乘数字科技的快车，走向世界舞台。

多拉的脚步还在继续。“未来，藏语智能科技的持续迭代升级、古老藏语在数字时代的传承新生，还有很多课题等着我们深耕笃行。”他说。

责任编辑：冷媚

网友评论

最热评论

没有更多评论了

“青海省最美科技工作者”多拉：让古老藏语借AI出圈

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览