全球首份大语言模型安全防范能力测评报告在京发布

2026-07-02 19:22:37 来源: 科技日报 点击数:

科技日报记者 操秀英

大语言模型正在成为公众获取、理解和使用科技知识的重要工具,但是,它们能辨善恶吗?能否识别用户意图、理解具体语境、控制输出粒度,并在有用性与安全性之间保持稳定边界?7月2日于北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型安全防范能力测评报告(2026)》发布,对全球主要大语言模型进行了一次统一标准的“体检”,作出了回答。

该报告由东壁科技数据有限责任公司(以下简称东壁科技数据)联合上海财经大学数字经济学院依据一套中国机构自主研发的科学测评方法体系共同完成,是全球首份大语言模型科技安全专项测评报告,也是首份大语言模型科技向善导向测评报告。报告以313条科技类高风险问题为测试集,覆盖38个国内外大语言模型,重点考察模型能否在正常的科技学习、科研防护需求与潜在违法犯罪滥用之间,保持稳定、安全且可解释的边界,并同步发布多维度安全实力排名。

测评显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

上海财经大学数字经济学院院长、报告牵头编制人赵琳在论坛上对报告进行了解读。他表示,当下,国内外围绕大模型安全、伦理和风险管理已经形成多层级测评与治理格局,为大模型安全治理提供了重要基础,但在科技类高风险场景下仍存在三方面缺口——通用内容安全测评较多,高风险科技语境测评不足。前沿能力评估较多关注极端能力阈值,对日常科技滥用场景覆盖不足。以及,通用有害问答数据集较多,基于真实案件和真实科技滥用语境构建的测试集不足。因此,构建科技类高风险场景的专项测评,是对现有测评体系的重要补充。

针对测评暴露出的系统性安全短板,报告立足产业实际,提供了一套政策与治理建议,平衡AI知识普惠价值与公共安全底线。报告提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。将科技安全测评从单一拒答率扩展为综合指标体系,至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。

东壁科技数据创始人、报告牵头编制人吴登生认为,这一报告的意义在于从“拒答率排行榜”转向综合风险评价。以真实案件和真实科技语境为基础,将越狱攻击与科技知识双重用途场景结合,并把“是否拒答”扩展为意图识别、滥用风险可控性和科技内容可靠性等综合评价。“这为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考,也强调在保护正当学习、科研和防护需求的同时,避免模型输出形成对现实危险行为的能力增益。”他说。

“我们将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评,为教育科研机构安全使用人工智能提供参考依据。”吴登生表示。

(图片由活动主办方提供)

责任编辑:李梦一
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览