商汤日日新SenseNova U1开源加速多模态AI技术普惠

2026-04-29 20:31:04 来源: 科技日报点击数：

高远科技日报记者王春

4月28日，商汤科技正式发布并开源日日新SenseNova U1系列原生理解生成统一模型，该模型基于商汤今年3月自主研发的NEO-unify架构，实现了单一模型架构上多模态理解、推理与生成的统一，凭借创新技术突破，为多模态AI发展及产业落地提供了全新路径，助力多模态AI技术加速普惠。

商汤科技相关负责人表示，在逻辑推理与空间智能等方向上，SenseNova U1能够深度理解物理世界的复杂布局与精细关系；在未来，它还能为机器人提供具身大脑，实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程，为推动技术与产业发展提供重要基础与关键引擎。

据介绍，NEO-unify架构摒弃了主流的拼接式，去除了视觉编码器（VE）和变分自编码器（VAE），重新构建统一的表征空间，并且深入融入每一层计算中，从而实现从模态集成向原生统一的范式跨越。这使得SenseNova U1系列模型能够将语言与视觉信息作为统一的复合体直接建模，实现语言和视觉信息的高效协同，让理解与生成能力同步增强，在保留语义丰富度的同时，维持像素级的视觉保真度。

形象地说，传统多模态模型就像一个由“说不同语言的人组成的工作组”，有人专门处理图像、有人专门理解文字，信息传递过程中难免出现等待、误解和损耗，往往需要通过堆大参数来弥补不足。而SenseNova U1更像是一个“全能大脑”，能在同一套“思考方式”里直接处理图像、文字等不同信息，无需中间转译，让信息流转更快捷、理解更直接、生成更高效。

此次开源的轻量版系列，包含基于稠密骨干网络的SenseNova-U1-8B-MoT与混合专家骨干网络的SenseNova-U1-A3B-MoT两个规格，已在GitHub、Hugging Face等社区开源。在多项基准测试中，该系列模型不仅在图像理解、生成与编辑等领域达到同量级开源模型SOTA水平，仅凭8B-MoT的较小规格，就能达到甚至超越部分大型商业闭源模型。

值得注意的是，凭借NEO-Unify架构优势，SenseNova U1在业内首个实现连续性的图文创作输出。只需要单次单模型调用，就能输出更高质量的作品，相比传统范式，实现了效率的大幅提升。其原生图文理解生成能力，能将图像和文本底层融合信号完整保留在上下文中，区别于过去多模型串联的勉强实现方式，让图像间风格保持高一致性。

据悉，在绘制钢铁侠图案时，模型可从扫描草稿出发逐步连续创作，精准保留每一步的结构与细节；生成五分熟牛排菜谱时，能分步规划并输出对应图示，各步骤画面一致性极高。更值得一提的是，该模型在复杂信息图生成任务中表现出商业级水准，有效解决了传统AI生成图文时文字乱码、扭曲的痛点，在保留语义丰富度的同时，维持像素级视觉保真度。

责任编辑：李梦一

网友评论

最热评论

没有更多评论了

商汤日日新SenseNova U1开源加速多模态AI技术普惠

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览

商汤日日新SenseNova U1开源 加速多模态AI技术普惠

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览

商汤日日新SenseNova U1开源加速多模态AI技术普惠