科技新突破 | DeepSeek提出全新注意力机制架构  长上下文建模更高效

2025-02-19 16:45:40 来源: 科技日报 点击数:

2月16日,DeepSeek研究团队在arXiv上发表论文,提出了一种全新的注意力机制架构NSA(Native SparseAttention,原生稀疏注意力),专为超快长上下文训练和推断而设计,具有硬件对齐的特点,梁文锋参与共创。

(科技日报 赵卫华 李忠明)

责任编辑:冷媚

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览