生成式人工智能在日本“高考”中取得9科满分成绩

2026-01-22 01:35:00 来源: 科技日报 点击数:

科技日报记者 李杨

在刚刚结束的2026年度日本大学入学共通测试中,生成式人工智能在标准化考试中的表现再度引发社会关注。日本人工智能初创企业株式会社LifePrompt于20日公布的实验结果显示,最新一代对话式生成AI在共通测试所涵盖的15个科目中取得平均97%的得分率,其中9个科目获得满分,刷新该实验自开展以来的最好成绩。

大学入学共通测试是日本全国统一实施的大学入学考试,其成绩被东京大学、京都大学等国立重点高校广泛采用,被视为日本“高考”的核心环节。此次AI在多科目中取得满分,意味着生成式人工智能在应对日本高难度、强标准化考试方面,已达到接近顶尖考生的水准。

围绕本次测试,LifePrompt介绍称,该公司自2023年起,每年在共通测试结束后,都会在统一条件下对主流生成式AI模型进行解题实验,今年已是第四次。2026年度实验覆盖文科、理科主要科目,包括英语、国语、数学、社会、理科、理科基础以及信息I等共15个科目,基本涵盖实际考生的主要应试范围。

从具体结果来看,在全部科目中,AI整体得分率达到97%。其中,数学I・A、数学II・B・C、化学、公共・政治经济、信息I等9个科目获得满分。即便是在强调阅读理解、语境判断和逻辑推理的文科科目中,AI的正确率也维持在较高水平,表现相对稳定。

若仅以东京大学文科一类考生普遍选择的科目组合进行测算,AI得分率同样达到97%。作为对照,日本大型升学辅导机构河合塾在2025年11月公布的预测显示,2026年度东京大学文科一类“合格可能性50%”对应的共通测试得分率约为89%。相比之下,AI成绩明显高出这一合格基准。从历年变化看,AI在该科目组合中的得分率已由2024年的66%,提升至2025年的91%,并在2026年进一步升至97%,呈现出明显的跃升趋势。

在模型层面,本次实验同时测试了三款生成式AI,分别为ChatGPT系列最新版GPT-5.2 Thinking、谷歌的Gemini 3 Pro以及Anthropic公司的Claude 4.5 Opus。综合成绩方面,GPT-5.2 Thinking以明显优势位居首位,Gemini与Claude得分接近。在解题时间上,Gemini和Claude完成全部科目约需1小时40分钟,仅为正式考试时间的约六分之一;GPT-5.2 Thinking因启用深度推理模式,用时约5个半小时,但准确率相对更高。

为尽量排除人为因素影响,LifePrompt此次采用自研的自动化“AI受验系统”,从试题PDF解析、题目切分、API出题到答案结构化输出均由系统自动完成,避免人工复制、输入或主观判断带来的误差。仅在个别技术限制下作出处理,包括英语听力使用官方朗读文本,国语纵排文本经机器转写后再输入系统。

尽管整体成绩接近满分,实验也暴露出当前生成式AI的共性短板。多款模型在涉及插图、示意图及颜色渐变地图等视觉信息时,判断准确率明显下降;在国语小说题中,对人物复杂心理状态和非理性情感的理解,仍与人类考生存在差距。分析认为,AI在文字理解、知识检索与逻辑推理方面已高度成熟,但在视觉信息整合和情感理解层面仍有提升空间。

随着AI在高考中取得接近满分的成绩,“AI能否考上名校”已不再是讨论重点。教育界人士指出,未来更值得关注的是标准化考试在能力评价中的功能定位,以及在AI高度普及背景下,人类教育体系应如何进行调整。

责任编辑:常丽君
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览