美团正式发布并开源LongCat-Flash-Omni

2025-11-05 18:25:45 来源: 科技日报 点击数:

科技日报记者 崔爽

11月3日,LongCat-Flash系列再升级,可以大规模高效实时音视频交互的开源全模态模型LongCat-Flash-Omni正式发布并开源,LongCat官方App同步上线公测。目前,新App已支持联网搜索、语音通话等功能,视频通话等功能稍后上线;Web端则增加图片、文件上传和语音通话等功能。

据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础,集成高效多模态感知模块与语音重建模块,在总参数5600亿(激活参数270亿)的参数规模下,实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供更高效的技术选择。

新模型也在开源范畴内实现对标闭源模型的全模态能力,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中实现毫秒级响应。

与此同时,新模型突破“大参数规模与低延迟交互难以兼顾”的瓶颈,在大规模架构基础上实现高效实时音视频交互:模型总参数达5600亿(激活参数270亿),依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为模型骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,实现低延迟、高质量的音视频处理与流式语音生成。模型可支撑128K tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上表现出优势。

责任编辑:王倩
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览