科技日报记者 都 芃
用语音操控智能车机,一句话唤醒智能家电,手机智能助手随叫随到……凭借便捷、自然的体验,语音交互正在改变智能时代的生产生活方式。回声消除是语音交互的核心技术之一,其技术水平决定着人们的语音交互体验。
不久前,国家知识产权局正式公布第二十五届中国专利金奖项目名单,科大讯飞股份有限公司(以下简称“科大讯飞”)凭借其“基于时延估计的回声消除方法及装置”专利入选。该专利技术显著提升了语音系统中的回声消除效果,改善了语音系统的实际应用体验。
找到时延“牛鼻子”
说起回声,许多人最先想到的场景是,一个人站在山中对着空荡荡的山谷大声呼喊,随后阵阵回声传来。这是声音传播受到阻碍,反射回说话人所形成的现象。但语音系统中所说的回声,更多是由麦克风和扬声器耦合所致。科大讯飞相关技术负责人张科举例说:“例如我们在进行一场视频会议的时候,扬声器播放出对方说话的声音,如果我们不有针对性地进行回声消除,对方说话人的声音就会被我们的麦克风接收,然后传送回对方,导致对方在音频系统中听到自己说话的回声。”
要消除回声,首先就需要让系统识别出什么是回声。张科告诉记者,在理想情况下,可将扬声器播放前的信号作为基础来抵消回声。但现实情况要复杂得多,参考信号与麦克风信号往往存在一定的时延,因此需要准确估计时延,从而矫正对齐信号,这就是经典的基于时延估计的回声消除方法。
该方法的核心思路是,当麦克风收录声音时,系统首先通过时延估计算法精确计算扬声器声音到麦克风的传输时间差,继而基于这个关键参数构建动态滤波器,将扬声器回声从混合信号中精准剥离,最终保留纯净的用户语音。
例如在用语音控制智能机顶盒时,需要避免电视的声音回传给智能机顶盒,导致误操作。在消除回声时,可以将机顶盒输出给电视的音视频源信号作为参考信号,计算其与麦克风信号之间的时延,进而消除回声,得到纯净的语音控制声音。
时延估计又快又准
要准确计算出时延参数并不容易。在真实的语音交互环境中,基于时延估计进行回声消除通常会面临三大问题。一是设备振动引起信号变形,叠加交互时的目标人声,大大影响时延估计准确率。二是扬声器与麦克风之间的时延并非一成不变,而是受到设备采样率、音效变声、网速变化等多种因素影响。因此,如何动态估计时延是又一挑战。此外,时延估计的最终目的是回声消除,这要求时延估计准确又及时。如果时延估计不及时,也会导致回声消除不干净,系统出现啸叫、自说自话等现象。
针对上述的三大挑战,科大讯飞研发团队在该专利研发中实现了三大创新。针对设备振动引起信号变形和目标人声叠加难题,团队首创了基于相似度的异常频点检测技术。这项技术能够在声音信号中准确排除变形信号以及说话人语音的异常时频点,从而精准过滤回声。
时延会受到各种因素影响而产生动态变化。为此,团队首创统计与瞬时结合的动态时延估计技术,引入瞬时信息决策,应对时延多变问题。应用该技术后,时延估计准确率大幅提升,从60%提升至98%。
张科告诉记者,通过统计与瞬时结合的方法进行时延估计仍存在不准确的问题。团队经过细致分析发现,要提升准确率,需要先对统计量进行筛选,得到较为准确的瞬时候选位置,然后再与统计量结合。其中,最大的难题是怎么平衡速度和准确性。“速度快了可能就不够准确。”张科介绍,团队通过大量实验,最终改进了相关方法,灵活选择更短的窗长,并复用历史滤波器系数,大幅提高滤波器更新及时性,使得延迟确认时间从40毫秒降低至10毫秒。
可应用于多种场景
该专利技术具备良好的通用性,不仅可用于回声消除,还可广泛应用于多类语音场景。例如,其可为手机、汽车、家电等各种多麦克风智能硬件进行语音降噪。在噪声多样的工业生产、智能制造场景中,其可用于快速追踪与识别噪声。该技术还可应用于医疗领域,帮助听力辅助设备抑制啸叫。
张科介绍,目前,该技术已深度融入科大讯飞智能终端产品矩阵,在消费级产品中得到广泛应用。无论是需要在跨语言沟通中精准捕捉人声的讯飞翻译机,还是专注于清晰记录语音信息的讯飞录音笔,都已运用相关技术。
下一步,团队还打算将该技术与深度学习相结合,开展基于数据驱动的模型训练,以更快的速度得到更加准确的时延估计,从而进一步提升回声消除效果和降噪能力,以适应更多不同硬件及应用场景。