简单任务不假思索,复杂任务深思熟虑——国产“混合推理”大模型领先全球

2025-04-29 20:12:53 来源: 科技日报 点击数:

科技日报记者 崔爽

4月29日凌晨,阿里巴巴宣布其开源的新一代大模型,在参数量仅为DeepSeek-R1的1/3,成本大幅下降的同时,性能全面超越OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。消息引发业界热议。通义千问模型Qwen3(千问3)是国内首个“混合推理模型”,可对简单需求“秒回”,大大节省算力。

诺贝尔经济学奖得主丹尼尔·卡尼曼曾提出一个著名观点:人类思维分为慢思考和快思考;慢思考包括逻辑推理、复杂计算和批判性思考;快思考则基于直觉和情感,消耗认知资源极少,适合日常简单任务。

传统的AI大模型,回复用户发来的“谢谢”“再见”等寒暄,也要耗费大量计算能力。AI研究者一直试图模拟人脑,做到“简单任务不假思索,复杂任务深思熟虑”。然而要融合快与慢两种思考方式,做到互不干扰,并不容易,就好像“左手画圆、右手画方”,需要极其精细、创新的设计及训练方法。混合推理模型是头部公司争相攻关的前沿技术,目前全球热门模型中只有千问3、Claude 3.7以及Gemini 2.5 Flash可以做到。

用户可为千问3设置“思考预算”,让机器知道该耗费多少“心力”。推理模式下,千问3执行更多中间步骤——分解问题、推导、验证、给出深思熟虑的答案;非推理模式下,模型直接生成答案。推理模式的计算成本大致是非推理模式的2到5倍。

阿里方面宣布,节省算力的同时,千问3各方面表现也大幅增强:考察奥数水平的AIME25测评中,千问刷新开源大模型纪录;考察代码能力的LiveCodeBench评测中,千问3表现超过Grok3;评估模型人类偏好对齐的ArenaHard测评中,千问3超越OpenAI-o1。千问3在全球开发者社区GitHub发布后四个小时获得1.7万个星标,刷新了开源大模型的热度纪录。

据介绍,仅需4张H20(一款常用的AI芯片)即可部署“满血版”千问3,其显存占用仅为性能相近模型的三分之一。由于算力门槛低,未来的手机、智能眼镜、智能驾驶、人形机器人都更可能应用这种大模型。

此外,千问3宣布支持119种语言,包括斯瓦希里语、意第绪语、亚美尼亚语、爪哇语、海地语等小语种。阿里方面表示,许多国家和地区迄今没有技术能力开发自己语种的大模型,千问3的开源解决了这一问题。

责任编辑:郭炘蔚

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览