科技日报记者 王禹涵 通讯员 白毅鹏
“两个富翁想比谁更富有,却都不愿暴露自己的家底。”这个被称为“姚氏百万富翁问题”的经典难题,是安全计算领域的起点。如今,在智能模型无处不在的时代,它所隐喻的数据隐私与安全困境,变得更加现实和紧迫。
西安电子科技大学马卓教授团队正是为此打造“安全盾牌”的人。他们完成的“开放环境下智能模型数据安全关键理论与技术”项目,获得2024年度中国电子学会自然科学奖二等奖,其核心突破之一,便是教会了AI如何精准地“遗忘”。
“逆向思维”打造“双保险”
金融风控、自动驾驶、智能家居……在这些熟悉的应用背后,是运行在开放环境下的智能模型。它们数据来源复杂、系统边界模糊,如同暴露在复杂环境中的生命体,极易受到攻击。
“攻击者可能伪装成普通数据提供方,在训练数据中植入‘后门’。”马卓形象地解释,“它就像一个‘卧底’,平时保持静默,一旦被特定指令‘触发’,就会导致模型失灵甚至犯错。”
传统防御方法如同“大海捞针”,需要遍历所有数据,效率极低且成本高昂。团队面临的挑战是:如何在不“推倒重来”的前提下,精准、快速地从拥有亿万参数的复杂模型中,找到并清除这个“卧底”?
答案来自一个精彩的“逆向思维”。“我们反其道而行之。”马卓说,“训练模型是让它‘记住’,而我们的新方法是让它学会‘遗忘’。”
团队从模型训练中最常用的“梯度下降”法中获得灵感,首创了“基于梯度上升的模型遗忘策略”。马卓用了一个生动的比喻:“这就像我们沿着当初‘学会’的路径反向操作,小心翼翼地让模型‘忘记’那些有害的记忆。不能多,也不能少,要恰到好处。”
这项技术的效率提升是颠覆性的。“以前的方法是‘搂’一遍所有数据,现在我们通过近似计算精准定位,执行效率提升了两个数量级以上。”马卓介绍。这意味着,处理同样任务的时间,从可能的“100小时”缩短到了“1小时”。
这项技术不仅能为已部署的模型“排毒”,更赋予了数据协作中“后悔”的权利。当多家机构合作训练一个模型时,若其中一方因故退出,可以安全地“撤回”自身数据,而不影响模型的正常运行,从而在制度层面为数据隐私和安全上了双保险。
锤炼产学研融合尖兵团队
一项技术从实验室走向产业应用,离不开一支既懂理论又知实情的团队。马卓团队的成长,深深植根于“产学研用”紧密结合的土壤。
“我们的成果,很大程度上得益于和企业交流中获得的启发。”马卓说。他鼓励团队的青年教师和学生“走出去”,到产业一线去发现“真问题”。团队骨干多次深入头部科技企业与金融机构,将他们在风控、自动驾驶等场景中遇到的实际安全难题“带回来”,作为科研攻关的源头活水。
在人才培养上,马卓注重激发学生的内驱力。“我像个辅导员,也做学生的思想工作。”他笑着说。通过开设新生研讨课,他早早地将科研的种子播撒进低年级本科生心中。“关键是调动他们的积极性,让他们明白读大学、研究生的意义,学会正向地‘卷’自己。”
马卓对学生要求十分严格,他认为“考试只是基本要求,想要‘出类拔萃’,就要学别人不能学,做别人不能做。”但他也深信因材施教,会根据成员特点规划方向。有的教师潜心科研,有的在教学上大放异彩;还有的博士生对市场敏感,就成为推动产业创新的桥梁。
正是在这种氛围下,一支涵盖算法理论、系统架构与工程实现的梯队快速成长。他们不仅产出了一系列具有自主知识产权的成果,更让技术在实际场景中扎下了根。
团队的成长轨迹,正印证了马卓的理念:“要构建‘科研引导+工程实践+交叉融合’的人才培养机制,聚焦重大需求,瞄准真问题,培养兼具理论深度和实践能力的复合型创新人才。”
(西安电子科技大学宣传部供图)