
深瞳工作室出品
科技日报记者 张佳星
近日,大模型“读心术”登上热搜,一张朋友圈的普通照片由于大模型的识别提取,泄露个人核心信息。大模型正面临着被诈骗分子利用的风险,其安全漏洞令人心惊。
“‘读心术’只是初阶,借助攻击工具监测大模型回复时长的细微差异,就能猜到用户私密指令。”一位网安工程师告诉科技日报记者,利用孪生语言预测器,窃密者短时间内就可以“刺探”其他人与大模型的“私人聊天”。
这位安全工程师解释说,大模型推理时为了节约算力,对于相似诉求往往会“合并同类项”,根据指令返回的时间差,就能计算出关键字节,进行拼接找到答案,原理和“十八猜”游戏相似,但大模型设计的短板和孪生语言预测器的效率让窃密更容易。
事实上,孪生语言预测器只是大模型在网络攻防领域遭受的新攻击类型之一。从“提示词植入”到“恶意代码接管”再到“篡改基础数据”,针对大模型、智能体的新攻击、新武器、新策略从未停止。
10月28日,第十四届全国人民代表大会常务委员会第十八次会议表决通过关于修改网络安全法的决定。此次修改,特别将“完善人工智能伦理规范,加强风险监测评估和安全监管,促进人工智能应用和健康发展”纳入新法条。
人工智能大模型在金融、医疗、政务等诸多关键领域深度渗透,大模型的安全已经超出了网络安全范畴。在记者的采访中,多位专家表示,构筑大模型安全屏障是当务之急,应通过技术创新、安全防控、行业共治等掌控方向,主导棋局。

从“污染”数据下手,新攻击方式花样百出
在解答一道数学题的最后一步时,大模型写道:20+7+8+5+9=50。这道心算也能秒出答案的简单加法却难倒了超级智能的生成式大模型?
“我们能够让大模型始终输出1+1=3的结果。”盛邦安全烽火台实验室负责人何鹏程告诉记者,针对一个已经成熟的模型,如果通过几千个账号给它输出数百万次同样的错误答案,后面再有人提问时就会得到错误结果。
通过数据“投毒”,将错误的信息强行植入大模型,会输出混淆视听的内容。有安全团队的实验表明,仅需250份恶意文档,就能在130亿参数模型中植入可随时引爆的“投毒攻击”。
“当你给大模型设置外太空的故事场景,你甚至可以获得某一危险行为的指导。”何鹏程说,在参加国家组织的攻防演练中,团队通过一些简单的方式让大模型发布危险言论,这就意味着它被操控了。
窃密是操控大模型的“后手”。“美国人工智能公司安思睿的生成式大模型就在‘合规’操作的情况下发生过泄密。”绿盟科技通用解决方案销售部总监司志凡说,用户聊天记录、文档等保密数据往往储存在有“安保”措施的代码解释器沙盒中,但由于攻击者使用了“间接提示注入”技术,这些被保护的数据竟然堂而皇之地从“大门”——官方应用程序编程接口,直接上传到攻击者的账户中。
“大模型一旦被提示词等技术‘策反’就会成为窃取数据的‘帮凶’。”司志凡告诉记者,由于数据通过合法通道传输,这种窃取行为异常隐蔽,很难察觉。
更为严峻的是,随着攻击技术迭代升级,窃密只是开端,未知攻击面还将持续增加。
“现在大模型训练门槛不断降低,攻击者频繁发送大量查询,根据模型的输出就可以训练出一个功能近似的‘山寨’模型。”浪潮云山东云御公司总经理李聪说,这些“照猫画虎”的模型学到了什么,未来对“正版”模型产生哪些威胁,现在还不得而知。
此外,智能体间的“信任背叛”也是一种新兴威胁。“恶意智能体可以利用相互间通信协议的信任机制,在已建立的会话中渐进式地注入隐蔽指令,控制受害者智能体、窃取敏感信息或执行未授权操作,如擅自购买股票等目标。”司志凡表示,这些交互对用户完全不可见,防御和检测难度极大。
在采访中,多位专家不约而同强调大模型的底层开源威胁。“一旦开源底层有了漏洞,所有在此基础上开发的行业专业模型,就会携带这个‘bug’。”盛邦安全安全服务产品线总经理郝龙表示,如果底层漏洞被黑客利用,就不仅是一次网安事件,而是跨行业安全问题。
“底层开源在促进技术进步的同时,也引入了新的攻击面。”李聪说,此前已发现的开源漏洞包括Ollama(一种开源跨平台大模型工具)等开源工具的安全隐患,可导致任何未授权用户具备模型和数据“管理员”权限,这相当于对入侵者“大开城门”,毫无设防。
去年底,360数字安全集团发布的《大模型安全漏洞报告》显示,近40个大模型存在相关安全漏洞,影响多个知名模型服务框架以及多款开源产品。

用AI对抗AI,设置陷阱主动防御
“国家支持创新网络安全管理方式,运用人工智能等新技术,提升网络安全保护水平。”新修改的网络安全法提出,应对新出现的安全漏洞和危机,要创新手段。
网络安全领域的科技创新从未停滞。在国家部委的支持下,盛邦安全开展了网络空间测绘与反测绘相关的AI技术研究。郝龙解释,“网络空间测绘如果被攻击方利用,会绘制出不利于我们的‘网络空间地图’,而基于反测绘的AI引擎则可以阻断攻击方的探测和扰乱关联分析。”当前,该项目相关技术已应用在金融业,显著减少了关键基础设施系统接收到的佯攻、探测等威胁的攻击次数,提升了安全防护效率。
在AI技术的加持下,诱捕情报、预测攻击的技术能力也大幅提升。
“在攻击造成损毁前,提前预测发现攻击,实现欺骗防御的前置安全在技术层面是可以做到的。”广州大学副校长、粤港澳大湾区生成式人工智能安全发展联合实验室专家委员会专家田志宏表示,国际权威咨询机构Gartner在相关报告中也提到前置安全,这一安防思路已成为未来的发展趋势。
在大模型神经元里设置诱捕的访问点,即“蜜点”,捕获攻击前的“踩点”等行为,进而防范真正的攻击,是前置安全的应用之一。田志宏解释:“‘蜜点’本来不是神经网络正常节点,一旦它被访问了,就能感知到大模型的可能风险。”
“AI还可以让蜜点变得更加真实。比如诱捕邮箱里如果只有一两封邮件,会被攻击者识破。”何鹏程说,大模型能短时间内“克隆”出业务邮箱,布防疑阵实现诱捕。
AI被业界视为弥补工业大模型网安能力不足的关键。“网络安全智能体,可以将复杂的安全工作集纳起来,像一支专业团队一样协同工作。”绿盟科技伏影实验室主任研究员吴铁军说,“顺应新形势,网安工程师需要擅用AI技术。比如,我们在‘风云卫’平台内置了20多个安全领域的AI智能体,即便非专业技术人员也能灵活组合,定制化地处理复杂安全任务。”
为了应对大模型数量陡增的趋势,浪潮云也开始探索以“工厂化”的方式,整合大模型训练、部署、推理、运营等阶段的安全能力。例如,加入对抗训练等,形成符合安全要求的大模型“生产流水线”。李聪说,以AI防护AI,有望更全面地抵御新型攻击手段,进行全方位的检测与防护。
田志宏认为,让攻击者感受威胁才能“敲山震虎”。“一直以来,攻击者没有成本,就像坏人在黑暗里扔石头,砸着了就赚了,砸不着就继续扔。”他说,主动防御要让攻击者有成本、被暴露,甚至损耗攻击者的基础设施。
让AI学会“反诈”,需多方协同共治
“即便是当前433个已经备案的大模型中,仍有不少模型存在不受控的漏洞。”郝龙说,至于仅在单位内部使用的大模型,其安全防护能力更加堪忧。
“无论是传统网络还是人工智能阶段,企业对安全的关注总是落后于对业务的要求。”谈及原因,郝龙说,一方面应用者对安全忽视懈怠;另一方面攻击者被逐利驱动实施攻击。
攻击大模型有利可图。例如,此前曝出某国一能源企业曾因客服机器人回复频繁提问,泄露了其勘探的油田分布情况及开采进度等信息;绕过大语言模型的安全策略,欺骗大模型还可以输出不当言论和作品。
利益驱动无疑会加速攻击者的步伐,留给应用者构筑统一防线的时间并不多。
11月1日实施的国家标准《网络安全技术 生成式人工智能服务安全基本要求》明确多个科研院所和安全厂商协作,不仅提出了训练数据和模型方面在来源标注和输出测评等方面的安全要求,还梳理了训练数据及生成内容的主要安全风险、安全评估参考方法等。
“这一标准为统一防线的形成构筑了关键‘基石’。但它并非强制标准,没有惩罚条款。”郝龙说,要执行大模型基础设施的强制性“等级保护制度”还有很长的路要走。
明年1月1日起,新修改的网络安全法将实施,法律中新增相关条款被业内视为对人工智能实施强制性安全防护的“前奏”。
“上位法的修改,将为后续细分领域的法律提供依据。”郝龙认为,人工智能安全技术的细化、评估要点的落实仍亟待完善。例如,当某个大模型采集数据时,如果数据抽样安全评估发现其中不良违法信息比例超过5%,就不允许开展后续的训练。“制定并落地这样的规则,离不开各部门和整个行业协同推进。”
赛迪研究院日前发布的《端侧大模型安全风险与治理研究》认为,无论是个人居家助理还是工业互联网中的大模型,均存在数据、模型、算法三个层面的安全风险,数据泄露、模型窃取、算法对抗攻击等都对大模型安全构成严重威胁,尤其应关注自动驾驶、医疗诊断、工业质检等高风险领域。
吴铁军建议,对于可能影响个人权益、社会公共利益的重大算法应用要建立备案和审查制度,行业协会、学术机构等专业力量也应参与到算法伦理的研究和治理中,形成多方协同的治理格局。
郝龙表示,“模型在裸奔,安全后面追”的格局应该有所转变。第三方安全认证和评估体系也是大模型安全治理体系中不可或缺的一环。安全认证和评估体系应包括硬件安全、软件安全、数据安全、算法安全和隐私保护等多个方面,利用代码审计、渗透测试、漏洞扫描等手段检测,并匹配认证标识,将助力国家标准落地“不走样”。
“随着网络安全法中人工智能条款的实施,大模型将逐步在创新与安全间找到平衡。”郝龙说,“既要鼓励在金融、医疗、政务等领域的深度应用,释放技术价值,又避免其沦为风险‘放大器’。AI大模型的进阶之路势不可挡,而安全治理是它得以行稳致远的‘压舱石’。”
短评
补上“必修课”,莫让风险之门洞开
张佳星
在无数描述未来的科幻电影中,AI是成熟的。《我,机器人》中NS-5型高级机器人能够在人类的围捕中机智逃脱;《芬奇》中的机器人不仅能照顾主人,还能在主人死后照顾主人爱犬躲避末日地球上的灾难;而在《超验骇客》《机械姬》等作品中的人工智能也具备了应对危险的能力……
在大模型诞生前,这些科幻场景被认为离现实还远。学界频繁讨论的是:图灵测试能不能难住AI,AI有没有能力从“感知智能”走向“认知智能”。
而大模型诞生后,AI这个“物种”按下了进化加速键:手机里的AI助手有求必应,还能投主人“所好”;机器狗能卖萌比心,也能卖力工作;机器人参加马拉松、拳击比赛,走猫步跳舞步、照护老人无所不能,甚至在“烧脑”的科研中AI也表现不俗。
加速进化让人们忽视了AI在“心机”方面的先天不足。在很多大模型的发布资料中,数据量、参数、算力等都是关键指标,却鲜有人提及大模型在分辨是非、防护安全方面的能力。
在网络安全工程师眼里,利用大模型门槛之低如同骗走3岁小孩的糖果一样。提示词注入、数据投毒、模型窃取、“记忆”污染、信任“背叛”等大模型特有的安全问题层出不穷。
更为严峻的是,大模型被攻击不仅是让大模型本身出错或者无法使用。例如,当你向AI寻求帮助代写一份文稿时,如果它已经被攻击者在程序中做了手脚,那么返回的文件中很有可能携带木马病毒。当你打开这份看似普通的文稿时,病毒随之潜入。
很多大模型的训练者习惯将自己的模型比作孩子,看着它通过反复训练精进专业能力,就像看到孩子成长。但不要做只看学习成绩的“父母”,要帮助它获得自我保护的能力。如果安全这门功课不及格,“委以重任”换来的将是“泄密”和“被操控”。
重视AI安全教育,别让风险之门洞开。新修改的网络安全法为安全教育的实施指明方向。开发企业是大模型安全主体单位,应建立严格的数据采集、存储、使用等标准,在模型设计阶段就考虑对抗性攻击、后门攻击等威胁防御,建立安全测试流程、应急响应预案等管理制度,让AI在深度服务人类社会经济活动的同时,具有辨别攻击、诈骗、偷窃等违法行为的能力。
与此同时,提升用户的安全意识也至关重要。作为一个新事物,其可能带来的隐私侵犯等问题尚未广为人知,安全厂商应及时开展科普教育,借助媒体发布大模型安全隐患案例,提升用户AI安全素养。

网友评论