科技日报记者 薛岩
2024年诺贝尔物理学奖和化学奖的公布将关于人工智能大模型的讨论推向高潮。许多科学家纷纷表示,人工智能加速科研攻关的潜力使其成为“人类历史上最具变革的技术之一”。
如今,人工智能大模型更是成为科学研究的一部分——“阿尔法折叠2”(AlphaFold2)能解析蛋白质结构,“金乌”太阳大模型能精准预测太阳耀斑活动,通义千问QwQ-32B推理大模型实现自主天文预测......不同领域的大模型层出不穷,赋能研究人员解决复杂难懂的科学难题,但也引发了新的质疑:这些大模型解决学科领域问题的效能如何?科学数据供给的质量是否达标,实用价值是否可经检验?
近日,由中国科学院计算机网络信息中心牵头建设的科学地平线(SciHorizon)平台正式上线。作为国际首个从“数据+模型”角度,面向人工智能驱动科学研究的综合评价平台,科学地平线专注于评估大模型在科学研究领域的应用能力以及科学数据质量,为科研人员使用大模型高效解决科学问题提供重要参考。
数据评价“质”更优
点击科学地平线网站页面,科技日报记者看到,来自“地球科学”“生命科学”“材料科学”领域的高质量科学数据推荐榜单清晰呈现。
“在榜单图表里,我们设置了‘数据集名称’‘发布时间’‘发布机构’等类别。”中国科学院计算机网络信息中心研究员祝恒书介绍,在这个榜单里,研究团队共收集了国内高校、科研院所等上百家不同机构发布的数据集,并从“规范性”“可用性”“可解释性”“合规性”四个维度对数据集作出评价。
祝恒书表示,相关领域科研人员可以查看榜单中的数据库排名,通过使用高质量数据赋能科学研究。
数据是大模型的“成长燃料”。数据越丰富,大模型能“学到”的知识就越多,能力也越强。但是,并非所有数据都会帮助大模型不断“成长”。只有高质量的数据能让大模型变得更聪明,而低质量数据则会让大模型“变笨”。所以,对于科研人员而言,使用高质量数据辅助科学研究不可或缺。
在科学地平线网站公布的“地球科学领域”科学数据推荐榜单上,目前,由中国科学院青藏高原研究所等机构发布的“中国气象驱动数据集(1979-2018)”(China meteorological forcing dataset)暂时位列榜首。结果显示,该数据集的完成度是93.21%,在可用性方面,“可访问”“可互操作”等两个指标达到100%,“可发现”和“可重用”指标分别为92.86%和80.00%。
“我们对四个维度进行细化,在每一维度下,还设置了不同的子指标,目的是确保评价体系的合理性和公平性。”祝恒书解释道,以“合规性”为例,这一维度下分别包含了“权属与溯源”“伦理与安全”“自主与可信”三个子指标。“通过对子指标进行考核,我们可以发现数据是否在某一维度内符合标准,从而对科学数据的质量做出综合评价。”祝恒书说。
此外,推动高质量数据“物尽其用”也是团队研发地平线平台关注的重点。根据数据集特点,团队还推出了针对每一个数据集可以开发的应用场景。
“我们希望通过对高质量数据特征进行深度解析,并结合行业实际发展需求,为科研人员开展科学研究提供便利。”祝恒书表示,未来团队将构建“数据-场景-价值”的转化闭环,让每份数据都能在产业升级中释放最大动能。
模型评价更“善用”
在地平线平台主界面上,记者在“大模型科学领域能力测试榜单”中看到大模型排名结果。在全学科排名中,深度求索(DeepSeek-R1)综合评分为71.68分,排名第一。
“考虑到大模型并非能够在所有学科领域都表现出非凡能力,所以我们对学科类型进行分类,包括‘全学科’‘数学’‘物理学’‘化学’‘生命科学’‘地球与空间科学’等6种类别。”祝恒书介绍,在不同学科下,依据“知识”“理解”“推理”“价值观”“多模态”五项评价指标,大模型的表现能力会被重新排序。
“通过选择学科类型,查看大模型的评分情况,科研人员能够迅速找到适配度高且综合能力更强的大模型,从而辅助科学研究。”祝恒书说。
虽然大模型以其强大的学习能力带来了科学研究的范式创新,但是出现的幻觉问题与科学价值观的潜在冲突,也会给科学研究带来认知偏差、不可重复结论以及科技伦理失范等系统性风险。
“下一步,我们重点解决的问题是如何让大模型遵循正确的科学价值观,这对更好地服务于科学研究至关重要。”祝恒书表示,目前团队正在从训练阶段和推理阶段对模型进行优化。“利用强化微调技术等,我们让大模型在回答科学问题时能够遵守科学伦理和道德规范,实现科学研究与大模型的价值观对齐。”祝恒书说。
值得一提的是,作为大模型赋能的认知操作系统,近年来智能体(AI Agent)的发展正在加速演进。相较于传统的人工智能依靠于用户输入指令,智能体就像人工智能的助手,它可以自主思考与决策,并执行多项复杂任务。
前不久,清华大学智能产业研究院与北京水木分子生物科技有限公司联合推出的OpenBioMed智能体平台,帮助研发人员自动完成了从靶点发现到候选药物设计的全过程,大幅缩短了研发周期。
不少专家预测,智能体将会在科学研究中释放出巨大潜力。对此,祝恒书表示,团队目前在开展面向科学领域的多智能体研究工作,并已在AI数字细胞方向取得了阶段性进展,未来还将会部署建设针对“AI4Science智能体”的评测系统。
“该系统将聚焦科学工具调用与环境交互能力、跨领域协作能力和复杂任务拆解效能等核心指标。建立覆盖基础理论验证到产业转化落地的全链条评测标准,旨在为科研人员高效运用大模型开展科研攻关提供科学化、系统化指引。”祝恒书说。