科技日报记者 都芃
日前,香港特区立法会正式宣布,其与科大讯飞联合打造的搭载AI实时字幕功能的智慧誊录系统“智识听”正式上线。
“智识听”深度适配会议场景的AI实时字幕功能,运用了科大讯飞中英粤混读引擎,结合声纹识别和字幕与帧画面对齐压制技术,可实现会议直播中文字和视频画面的同轨显示,公众可以通过网站平台,收看带有实时字幕的会议直播,无障碍获取相关资讯。
机器转写、机器同传并不是一件新鲜事。但此前由于延迟高、专业术语错误率高、不同语种切换不便等,机器同传在大型会议活动中只能作为参考。AI技术的快速发展彻底改变了这一现状。谷歌、科大讯飞等人工智能企业纷纷在多语种智能语音技术上发力。
中国拥有多种地方方言、民族语言,这给会议记录转写、同传翻译等智能语音场景带来了挑战。例如,传统的语音转写工具在面对多语种、多方言时,往往要手动切换语言引擎,导致在多语种夹杂的场景中会频繁出现转写断层。
粤语、普通话、英语混合使用的场景在香港非常常见。“香港特区立法会主席梁君彦先生带队来到科大讯飞时,说粤语、非标准粤语、英语、非标准普通话的同事,还有说其他不同语言的同事,都对实时转写功能进行了现场测试,远超他们预期。”科大讯飞董事长刘庆峰此前介绍,为了攻克多语种翻译识别难题,项目团队整理了2.5亿汉字的中英文对照和20万个高频粤语词汇,将其作为语料库提供给语言引擎进行学习,进一步提升了该技术实际应用效果。
目前,“智识听”实时字幕的准确率达96%,通过幕后人工的实时修正,人机结合后准确率可达99%。其可以实现1分钟发言稿处理时间从8—12分钟缩短至3—4分钟,摘要整理效率提升10倍。此外,随着普通话、粤语、英语之间的翻译体验逐渐优化,“智识听”后续还将推出繁体字幕生成、一键会议概要生成等功能。在不久前香港举办的“AI+Power 2025”活动上,该项目获评“年度AI项目大奖”。
以“智识听”为代表,集成多项AI核心技术的讯飞听见多语种会议系统,如今不仅支持粤普、中英、粤英混合识别及三语双向互译,还提供多语种操作界面,并支持私有化部署,确保数据安全。其同传功能可快速传达会议信息,结构化数据管理便于回溯查找,上传音频转写处理高效,并可智能区分发言人,辅助快速成稿。
在一系列成果背后,是科大讯飞在智能语音技术领域的深厚积淀。2024年,由科大讯飞牵头的“多语种智能语音关键技术及产业化”项目获得2023年度国家科学技术进步奖一等奖,构建起具有中国自主知识产权的多语种智能语音技术体系。
其实早在2014年,科大讯飞便开始研究包括中国部分民族语言在内的小语种智能语音技术,与北京外国语大学、上海外国语大学等建立密切合作,积累了宝贵资源,沉淀大量技术。
例如,针对部分小语种训练知识匮乏、训练数据稀缺,团队设计出全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建。在训练数据数量、质量有限的情况下,显著提升了小语种语音系统性能。
此外,为解决复杂应用场景下语音交互、语音翻译面临的深层次语义理解困难、专业性不足等难题,研发团队还提出了多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
科大讯飞相关负责人认为,大模型时代的语音技术本质上是一次推动万物互联和原有人机交互场景重构的巨大产业机会,是语音产业的全新战略机遇。
着眼未来,大模型技术将在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果。同时基于大模型强大的语义理解、知识问答、多轮对话、多模态建模能力,其也将进一步提升智能语音技术的使用场景和应用价值,加速通用人工智能时代到来。
目前,科大讯飞在香港已形成多元化业务布局,并以香港为“桥头堡”,推动中国人工智能技术加速出海。其自主研发的多语种智能语音技术已支持69个语种,为华为、比亚迪、海尔等中国企业的1.2亿台(套)设备提供语音交互支持,为“中国智造”走出去提供语言与AI能力保障。