科技日报记者 崔爽
11月3日,LongCat-Flash系列再升级,可以大规模高效实时音视频交互的开源全模态模型LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能稍后上线;Web端则增加图片、文件上传和语音通话等功能。
据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础,集成高效多模态感知模块与语音重建模块,在总参数5600亿(激活参数270亿)的参数规模下,实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供更高效的技术选择。
新模型也在开源范畴内实现对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中实现毫秒级响应。
与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达5600亿(激活参数270亿),依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为模型骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,实现低延迟、高质量的音视频处理与流式语音生成。模型可支撑128K tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上表现出优势。

网友评论