AI浏览器的“阿喀琉斯之踵”：提示注入或将长期存在

随着AI开始像人一样“上网办事”，新的安全隐患也被不断放大。OpenAI近日罕见地公开承认：提示注入攻击（Prompt Injection）可能永远无法被彻底解决。这不仅是对自家ChatGPT Atlas浏览器的提醒，也是在给整个AI行业敲警钟。

所谓提示注入，本质上和网络诈骗、社会工程学类似。攻击者把隐藏指令塞进网页、文档或邮件中，诱导AI代理误以为那是“合法任务”，从而改变行为、泄露信息，甚至执行危险操作。OpenAI在博客中直言，随着Atlas开启“代理模式”，AI能自主浏览、操作网页，攻击面反而被进一步放大。

问题并非纸上谈兵。Atlas在今年10月上线后，安全研究者迅速演示了攻击方式：只需在Google Docs里写几句话，就可能影响AI浏览器的底层决策。同一天，Brave也发文指出，间接提示注入是所有AI浏览器的系统性难题，不只存在于OpenAI的产品中。

这种判断并非孤例。英国国家网络安全中心本月也警告称，针对生成式AI的提示注入攻击“可能永远无法完全缓解”，行业更现实的目标应是降低风险和损失，而不是幻想“一劳永逸”。

面对这个近乎“西西弗斯式”的挑战，OpenAI给出的答案是持续对抗。公司强调，提示注入是长期AI安全问题，只能通过不断加固防御来应对。其中最引人注目的，是他们训练了一名“AI攻击者”。

这个攻击者本身就是一个大模型，通过强化学习扮演黑客角色，反复尝试向AI代理植入恶意指令。它可以先在模拟环境中测试攻击，观察目标AI会如何“思考”和行动，再不断调整策略、重新尝试。由于它能接触到目标AI的内部推理逻辑，理论上比真实世界的攻击者更快发现漏洞。

这种“用AI对抗AI”的思路，在安全测试领域并不陌生。Anthropic、谷歌等公司也在强调分层防御和持续压力测试。不同的是，OpenAI更进一步，让模型自己去探索“人类红队没发现的问题”。官方透露，这套系统已发现多种此前未被记录的新型攻击路径，甚至能诱导AI执行跨越数十步的复杂有害行为。

这场博弈的现实意义在于：当AI越来越像一个“数字员工”，安全问题就不再只是技术细节，而是基础信任。OpenAI的坦率表态，某种程度上是在承认一个事实——AI的智能越强，防守就越不可能一劳永逸。未来的关键，或许不在于是否会被攻击，而在于能否更早发现、更快修补、更小代价地承受风险。

浏览量: 63