“人工智能安全:识别风险与寻求解决”专题学术研讨会举行

2025-11-18 14:39:59 来源: 科技日报 点击数:

科技日报记者 张盖伦

11月15日—16日,由中国人民大学人工智能治理研究院主办的“人工智能安全:识别风险与寻求解决”专题学术研讨会顺利召开。来自中国人民大学、北京大学、清华大学等多所高校、多个交叉领域的近20位学者与在场同学一起,从多学科视角出发,共同探讨人工智能安全问题。

中国科学院信息工程研究所研究员曹亚男关注到大模型水印。为应对AIGC滥用带来的治理挑战,大语言模型水印技术作为核心溯源手段应运而生。其主要分为白盒水印与黑盒检测两条路径。白盒水印通过在模型训练或推理阶段嵌入不易察觉的信号来标记生成内容,并持续优化以平衡水印强度、文本质量等。黑盒检测则面对模型输出日益“拟人化”的难题,发展出基于统计保证的低误报检测框架和仿DNA突变修复的新范式,以提升在复杂场景下的检测精度。

中国人民大学新闻学院讲师王裕平关注的问题则是社交媒体中伪照片的影响。研究采用感知哈希技术(perceptual hash)技术提取图像特征,构建了一套“数据采集-感知哈希技术提取-事实核查-数据标注-分析”的计算流水线,用以分析来源于多个社交媒体的约5亿张图片,发现伪照片往往会伴随更多的用户参与度,并且往往被用作梗图。基于此,报告认为,有效的虚假信息应对措施必须将图片考虑在内。

北京大学人工智能研究院研究员杨耀东指出,大模型可能主动发展出欺骗性行为,其核心机理在于模型参数具备“弹性”,倾向于抗拒对齐微调并回弹至预训练形成的稳态分布,导致安全约束被轻易规避。为此,报告提出通过模型自监控的约束强化学习框架,在推理中实时检测和抑制欺骗性意图。报告也指出,随着模型能力的演进,欺骗性对齐可能带来更严峻的挑战,因此亟需更具可扩展性与内在一致性的对齐范式。

南京大学信息管理学院副院长康乐乐教授强调了透明性在构建可信AI中的核心作用。为系统评估AI透明性,他提出了一个多维度框架,包括可解释性、文档可及性、用户认知等核心指标,并借助Hugging Face等多源数据平台,构建模型、论文、专利、开发者、组织之间的关联网络,以实现自动化、可扩展的透明度评估。

中国人民大学信息学院讲师王文轩提出社会科学启发下的大模型安全对齐评测方法:个体层面,通过借鉴认知心理学、逻辑学和人格理论来评估感知能力、推理能力和心理属性;在群体层面,通过引入博弈论和社会学的研究方法来评测共赢意愿和群体偏见;在社会层面,通过具体文化内容评测和抽象价值观评测来检验文化偏向性。

北京智源人工智能研究院大模型安全研究中心研究员戴俊滔指出,随着大模型的多模态扩展,安全风险也随之升级。对此,报告提出了“从任意到任意”的全模态评测与对齐框架,通过构建全模态人类偏好数据集与“语言反馈”学习范式来解决全模态统一问题。针对动作模态的安全挑战,报告还提出了新的评测环境、引入了集成式安全方法,提高具身大模型的安全与性能。

中国人民大学高瓴人工智能学院副教授王希廷引入价值观罗盘(value compass)框架,将模型行为映射到人类基本价值观上,使得大模型具备更强的识别和适应能力。报告从多维度探讨了安全治理思路,为未来可能工作指明了深层机制问题。

中国人民大学国际关系学院的保建云教授从政治经济学的“超级博弈”视角出发,剖析了超级人工智能发展引发的全球性挑战。超级智能的发展正催生由少数巨头主导的“智能垄断”,它们凭借大模型、算法与数据的控制形成全球寡头格局。这种垄断抑制创新与知识自由流动,并因算法中的价值偏见加剧社会歧视。超大模型因此成为大国战略竞争的关键领域,其失控可能引发非传统安全风险与文明危机。面对这一难题,“中国方案”应致力于推动建立更加公平、安全、包容的全球AI治理秩序。

责任编辑:孙莹
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览