科技日报记者 罗云鹏
全球化浪潮之下,跨语言无缝沟通已成为人们的核心需求之一。近日,在荷兰鹿特丹举行的国际语音会议INTERSPEECH上,荣耀联合上海交通大学完成的两篇端侧AI语音技术研究成果,赢得认可。
这两篇入选论文并非纸上谈兵。其核心技术已转化为产品功能,标志着荣耀在让设备真正“听懂”用户,也为行业突破长期技术瓶颈提供了新解。
荣耀MagicOS副总裁孙建发表示:“此次研究成果入选 INTERSPEECH,是对荣耀技术创新的鼓励,同样印证了‘从用户需求出发’的研发理念,让每位用户在无网络环境下也能享受精准、实时的多语种翻译,这才是端侧AI真正的普惠价值。”
破解算力囚笼
语音作为人机交互最自然的入口,其智能化水平直接决定了用户体验。
然而,长期以来,依赖云端提供高准确率翻译,存在网络依赖、传输延迟以及用户隐私数据泄露风险;本地端侧方案,囿于移动设备有限的处理器性能、内存容量等,往往在识别速度、翻译准确率,特别是支持多语种能力上大打折扣。
瓶颈之下,荣耀确定“纯端侧实现媲美云端的通话翻译体验”目标。通过荣耀MagicOS AI团队的努力,在荣耀智能手机等移动设备上,仅依靠端侧算力,实现媲美云端服务器体验的多语种实时通话翻译。
然而,这需要在算力、存储和功耗三重物理极限之下,解决精准识词的“闪电速度”、流畅翻译的“空间压缩”两大挑战。
面对挑战,团队通过创新的注意力机制与决策策略结合,让端侧AI实现流式语音识别能力,无须等待用户说完整句话即可启动识别,彻底打破延迟瓶颈,做到“边说边识别”。
同时,全新投机采样推理模块,通过直接与主模型的“大脑”协同工作,即时读取并利用主模型已经形成的“记忆”和“思路”来高效预测接下来可能出现的词,在不降低准确性的前提下,实现推理速度的显著提升。
这两项技术方案不仅通过了权威学术评审,同时在实测中展现出强大性能。数据显示:将传统方案3GB到4GB的内存占用压缩至800MB,节省75%存储空间;翻译准确率提升16%,推理速度提升38%。
不仅如此,荣耀与上海交通大学的合作亦是促进“产、学、研、用”深度融合的范例。其将论文中的创新算法快速转化为实际产品功能,让学术研究到产业应用无缝衔接。
记者了解到,通过0.8B模型集成6语种的能力,以“开箱即用”展示“小而精”的端侧模型同样可以具备强大的复杂任务处理能力。这也挑战了以往“参数量决定一切”的刻板印象,打开模型轻量化与性能平衡的新路线。
让世界“听”见中国AI的声音
事实上,荣耀端侧语音大模型的突破,也是其在“阿尔法战略”指引下,深耕AI领域、坚持“从用户需求出发”研发理念的结果。
阿尔法战略强调“持续性”与“前瞻性”投入。从自研MagicGUI大模型意图理解的精准突破,到如今端侧语音大模型实现离线实时翻译,时下荣耀正一步步构建起一个覆盖感知、理解与服务的全栈AI矩阵。
而这一技术对用户体验的提升,也体现在“从被动响应到主动服务”的转型。荣耀的AI矩阵整合了此前开源的MagicGUI意图识别大模型,结合端侧语音模型,系统不仅能翻译指令,更能深度理解用户需求。
“AI技术的终极价值在于更好地服务用户”孙建发说,“端侧AI是实现隐私安全与极致体验平衡的最优路径。”
值得一提的是,这项创新不仅让消费者的手机拥有更接近人类感官的“耳朵”,还以更低延迟、更高准确性“听懂”多样化的语言指令;与此同时,“隐私优先”导向确保所有语音数据在设备本地处理,杜绝云端泄露风险。
放在更大维度来看,这也象征着中国科技力量的崛起。在过去,中国AI技术常被贴上“追随者”标签,但INTERSPEECH的认可,无疑将为荣耀打开更广阔的国际合作空间,推动荣耀AI技术标准与方案走向世界。
业内人士认为,荣耀创新将加速语音大模型向轻量化演化,将带动更多企业探索本地化AI,消除全球“数字鸿沟”的语种障碍。
回望这场从论文到产品的旅程,荣耀用0.8B参数的轻量化奇迹让AI“听懂”世界。可以预见,未来,随着更多语种覆盖和场景延伸,这场“听见”的变革将点亮更智能的生活。
(受访单位供图)