简单任务不假思索，复杂任务深思熟虑——国产“混合推理”大模型领先全球

2025-04-29 20:12:53 来源: 科技日报点击数：

科技日报记者崔爽

4月29日凌晨，阿里巴巴宣布其开源的新一代大模型，在参数量仅为DeepSeek-R1的1/3，成本大幅下降的同时，性能全面超越OpenAI-o1等全球顶尖模型，登顶全球最强开源模型。消息引发业界热议。通义千问模型Qwen3（千问3）是国内首个“混合推理模型”，可对简单需求“秒回”，大大节省算力。

诺贝尔经济学奖得主丹尼尔·卡尼曼曾提出一个著名观点：人类思维分为慢思考和快思考；慢思考包括逻辑推理、复杂计算和批判性思考；快思考则基于直觉和情感，消耗认知资源极少，适合日常简单任务。

传统的AI大模型，回复用户发来的“谢谢”“再见”等寒暄，也要耗费大量计算能力。AI研究者一直试图模拟人脑，做到“简单任务不假思索，复杂任务深思熟虑”。然而要融合快与慢两种思考方式，做到互不干扰，并不容易，就好像“左手画圆、右手画方”，需要极其精细、创新的设计及训练方法。混合推理模型是头部公司争相攻关的前沿技术，目前全球热门模型中只有千问3、Claude 3.7以及Gemini 2.5 Flash可以做到。

用户可为千问3设置“思考预算”，让机器知道该耗费多少“心力”。推理模式下，千问3执行更多中间步骤——分解问题、推导、验证、给出深思熟虑的答案；非推理模式下，模型直接生成答案。推理模式的计算成本大致是非推理模式的2到5倍。

阿里方面宣布，节省算力的同时，千问3各方面表现也大幅增强：考察奥数水平的AIME25测评中，千问刷新开源大模型纪录；考察代码能力的LiveCodeBench评测中，千问3表现超过Grok3；评估模型人类偏好对齐的ArenaHard测评中，千问3超越OpenAI-o1。千问3在全球开发者社区GitHub发布后四个小时获得1.7万个星标，刷新了开源大模型的热度纪录。

据介绍，仅需4张H20（一款常用的AI芯片）即可部署“满血版”千问3，其显存占用仅为性能相近模型的三分之一。由于算力门槛低，未来的手机、智能眼镜、智能驾驶、人形机器人都更可能应用这种大模型。

此外，千问3宣布支持119种语言，包括斯瓦希里语、意第绪语、亚美尼亚语、爪哇语、海地语等小语种。阿里方面表示，许多国家和地区迄今没有技术能力开发自己语种的大模型，千问3的开源解决了这一问题。

责任编辑：郭炘蔚

简单任务不假思索，复杂任务深思熟虑——国产“混合推理”大模型领先全球

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览