随着AI开始像人一样“上网办事”,新的安全隐患也被不断放大。OpenAI近日罕见地公开承认:提示注入攻击(Prompt Injection)可能永远无法被彻底解决。这不仅是对自家ChatGPT Atlas浏览器的提醒,也是在给整个AI行业敲警钟。
所谓提示注入,本质上和网络诈骗、社会工程学类似。攻击者把隐藏指令塞进网页、文档或邮件中,诱导AI代理误以为那是“合法任务”,从而改变行为、泄露信息,甚至执行危险操作。OpenAI在博客中直言,随着Atlas开启“代理模式”,AI能自主浏览、操作网页,攻击面反而被进一步放大。
问题并非纸上谈兵。Atlas在今年10月上线后,安全研究者迅速演示了攻击方式:只需在Google Docs里写几句话,就可能影响AI浏览器的底层决策。同一天,Brave也发文指出,间接提示注入是所有AI浏览器的系统性难题,不只存在于OpenAI的产品中。

这种判断并非孤例。英国国家网络安全中心本月也警告称,针对生成式AI的提示注入攻击“可能永远无法完全缓解”,行业更现实的目标应是降低风险和损失,而不是幻想“一劳永逸”。
面对这个近乎“西西弗斯式”的挑战,OpenAI给出的答案是持续对抗。公司强调,提示注入是长期AI安全问题,只能通过不断加固防御来应对。其中最引人注目的,是他们训练了一名“AI攻击者”。
这个攻击者本身就是一个大模型,通过强化学习扮演黑客角色,反复尝试向AI代理植入恶意指令。它可以先在模拟环境中测试攻击,观察目标AI会如何“思考”和行动,再不断调整策略、重新尝试。由于它能接触到目标AI的内部推理逻辑,理论上比真实世界的攻击者更快发现漏洞。
这种“用AI对抗AI”的思路,在安全测试领域并不陌生。Anthropic、谷歌等公司也在强调分层防御和持续压力测试。不同的是,OpenAI更进一步,让模型自己去探索“人类红队没发现的问题”。官方透露,这套系统已发现多种此前未被记录的新型攻击路径,甚至能诱导AI执行跨越数十步的复杂有害行为。
这场博弈的现实意义在于:当AI越来越像一个“数字员工”,安全问题就不再只是技术细节,而是基础信任。OpenAI的坦率表态,某种程度上是在承认一个事实——AI的智能越强,防守就越不可能一劳永逸。未来的关键,或许不在于是否会被攻击,而在于能否更早发现、更快修补、更小代价地承受风险。









苏公网安备32021302001419号