热议全网人机辩论“图灵测试”诞生记

2025-08-20 15:59:09 来源: 科技日报 点击数:

科技日报记者 张盖伦

近日,一场别开生面的人机辩论“图灵测试”引发全网热议——国产AI大模型MiniMax以42%的“人类认同率”通过图灵测试,远超75年前“人工智能之父”图灵设定的30%基准线,标志着国内首个通过人机辩论“图灵测试”的大模型诞生。

在由中央广播电视总台(以下简称总台)打造的《2025中国·AI盛典》舞台上,这场特别的思想实验不仅让观众惊叹于AI的辩论能力,更引发广泛好奇:这场颠覆传统的测试究竟如何诞生?

“说到人工智能,相信大家脑海中都会立刻浮现出图灵测试这个概念。”8月19日,节目组回忆道。75年前,图灵提出了著名的设想:如果一台机器在自然语言对话中能“骗过”超过30%的人类参与者,那就可以被视作具有智能。于是,在《2025中国·AI盛典》进行一场图灵测试的想法应运而生。

与传统的对话测试不同,节目组最终决定采用“人机辩论”这一形式。这一决策基于双重考量:从技术层面看,辩论是对智能水平一次“更高维度的检验”。传统图灵测试更注重对话的流畅性,而辩论则要求参与者具备深度理解、即时反应、知识整合和策略博弈等全方位能力。在节目组看来,辩论像一场思维的全方位压力测试,能更深刻地揭示AI是否真正理解了议题的本质,而不仅仅是检索或复述信息。从传播效果看,辩论天然具有对抗性和戏剧张力,正反双方你来我往,更易碰撞出思维的火花,也能让抽象的智能测试变得可视、可感、可评。

经过数轮思想碰撞,团队最终聚焦于两个颇具哲学张力的命题:“按下一个按钮可以删除痛苦的回忆,该不该按”和“AI会不会真的爱上人类”。前者因其直指人类敏感的情感神经,更能展现人机思维的互补性与差异性,最终被选定为测试的核心议题。

“骗过”42%观众,AI辩手的“首次突破”并非偶然。作为以线性注意力混合架构(文本模型)为骨、实时语音生成(多模态模型)为翼的智能体,MiniMax多模态大模型学习了万亿条人类数据,拥有4560亿参数,单次激活459亿参数生成智能响应。它在多个基准测试中取得出色成绩,具备强大的数学推理、复杂的问题求解,以及长文本处理能力。

尽管拥有出色的“出厂设置”,这位AI辩手也经历了漫长而艰辛的“备赛”之路。首先,AI辩手需要构建广博的知识体系。它的“学习”过程分为两步:第一步是预训练,让大模型掌握海量知识,理解人类语言规律;第二步是对齐,即让模型学会如何与人类进行有效对话,理解人类意图,并以类人的思维方式回应。其次,AI辩手需要经历“千锤百炼”的模拟演练。研发团队先以人类辩手的大量实战数据为蓝本,对模型的每一次回应进行多维度打分:答案是否准确?与议题是否紧密?逻辑链是否严密?在一次次测试、反馈中,让AI少“打马虎眼”、少“跑题”,说话越来越靠谱。

在中国工程院院士、之江实验室主任王坚看来,这场“图灵测试”的意义,已超越了简单的“辨别人机”。他表示:“我们看到,通过了图灵测试只是人工智能的下一个新的开始,远不是终结,而这是图灵本人也没有预想到的,下面70年会是人工智能更令人激动的时代!”

“测试中AI展现出的辩证思维能力和即时反应速度,证明我国在自然语言处理和认知智能领域已经达到国际领先水平。”复旦大学特聘教授、上海科学智能研究院院长漆远补充道,“这场测试既验证了技术突破,又引发了公众对智能本质的思考。这正是科研与科普的完美结合,为人工智能的健康发展提供了示范。”

MiniMax技术团队表示,大模型的“首次突破”验证了自研技术的有效性和先进性。未来,团队希望推动技术在更广泛的生产力场景中发挥作用。

据介绍,《2025中国·AI盛典》是总台持续深化“5G+4K/8K+AI”发展战略,积极推动新质生产力转化为媒体传播力的又一重要实践和创新探索。总台还将继续探索人机协作的无限可能,让科技更有温度,让传播更具智慧,持续书写“相AI相生”的时代新篇。

责任编辑:冷媚

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览