科技日报记者 罗云鹏
记者9月24日获悉,由面壁智能与清华大学深圳国际研究生院人机语音交互实验室携手的新一代语音生成模型VoxCPM于近日开源。凭借与真人无异的模型语音生成、克隆效果以及高效,模型一经发布,迅速获得来自国内外的开发者、科研机构的高度认可,并登顶HuggingFace全球模型趋势榜榜首。
此前,语音合成模型一直因为声音机械生硬、不自然等缺陷被市场诟病,也限制了其应用普及的进展。随着大语言模型的成功,语音技术也逐渐步入大模型时代,语音生成音色、语气、自然度提升明显,语音细节更丰富,音质逐渐接近真人。
此次开源的VoxCPM虽仅有0.5B,但生成的语音在情绪、音色、口音、停顿、韵律等方面表现与真人无异,达到了语音合成领域SOTA水平。得益于文本基座的强大能力和大规模的语音训练数据,VoxCPM无论是文本理解和表达、极少样本的声音复刻,甚至公式及符号音频输出等能力,都展现了出色生成效果。例如,VoxCPM可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来“声”临其境的听觉体验。
语音相似度、词错误率是评判语音模型的关键指标。根据权威语音合成评测榜单测试,VoxCPM在词错率方面达到极低水平,在音色相似度方面亦表现良好。
此外,VoxCPM可以在家用电脑这类极低算力水平的端侧设备上即可实现部署,并能实现高效推理速度,为不同场景下高性能语音合成应用的普及提供了基础。