攻克智能硬件加速难题——我国团队首创存算一体高效排序架构

2025-06-28 13:10:51 来源: 科技日报 点击数:

科技日报记者 杨雪

近日,我国团队在智能计算硬件方面取得突破,在国际上首创基于存算一体技术的高效排序硬件架构。该成果由北京大学集成电路学院教授杨玉超、北京大学人工智能研究院研究员陶耀宇组成的团队完成,已发表于《自然∙电子》。

排序是人工智能系统中最常用、最耗时的基础操作之一,广泛运用于自然语言处理、信息检索、图神经网络、智能决策等环节。例如,在智能驾驶场景中,车辆在高速公路等简单环境只需对周边几台车的行进路线进行排序,整个耗时可控制在毫秒级别。但在复杂的城市环境,周边有数百个乃至更多各类交通参与者,排序的复杂程度和硬件延迟则大幅提高。又如,在抖音等平台大规模检索与推荐系统中,用户点击、评分、相似度在计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性。

在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,极大制约了具身智能、智能驾驶等新兴技术的发展与普及。

近年来,“存算一体”被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题。这一难题,是下一代人工智能计算硬件发展的前沿焦点与核心卡点。

科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题。比如,开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计。又如,在算子层面,优化了面向人工智能任务的算法—架构协同路径,同时兼容现有矩阵计算。

“排序的核心是比较运算,需要精准地实现‘条件判断+数据搬移’,在复杂的应用场景中,还要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较—选择’的比较器单元,而传统存算一体架构主要面向‘乘加’‘累加’等操作,难以支持这样的复杂运算,我们成功解决这一难题,设计了一种‘无比较器’的存算一体排序架构。”论文第一作者、北京大学集成电路学院博士生余连风介绍。

实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU(并行计算)处理器的1/10。

论文通讯作者陶耀宇说,“排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”

在测试中,该技术展现出高速度与低功耗的显著优势,具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。

“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值。”陶耀宇介绍。

责任编辑:郭炘蔚

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览