AI Agent安全困局：当执行者成了攻击者，谁在为你的人工智能买单？

一个代码漏洞，17.5万个实例被远程控。一个钓鱼包，全球下载量破万。一次Chat，不到一小时数据库沦陷。

2026年的AI Agent已经不是“对话玩具”，它正在成为攻击者手中最锋利的武器。

2026年的春天，技术圈最炸裂的消息，不是新模型的发布，而是安全。

上半年被AI圈捧上神坛的明星——OpenClaw，这只让无数人相信AI可以“亲手干活”的“龙虾”，在短短几个月内被安全机构撕开了外衣。

数十个CVE编号、CVSS评分屡屡突破9.0、十一万公网实例暴露于漏洞之下——这不是科幻，这是你我的生产环境。

当AI拥有了手和脚，攻击者也开始学着用刀切向这些“手脚”。

一、OpenClaw的漏洞血泪史：一个明星项目的“死亡代码”

OpenClaw凭借其强大的功能成为了开源智能体生态的绝对顶流——通过自然语言指令完成邮件管理、日历调度、浏览器自动化、文件操作乃至系统级shell命令执行等高权限任务-1。全球数以万计的开发者将其作为效率工具的终极形态。

但正是这个“帮AI长出手脚”的设计，成了致命弱点。

CVE-2026-28466（CVSS 9.4） ：漏洞的原理简单得可怕——OpenClaw的Gateway在转发执行请求时，不对参数做任何过滤。拥有认证凭证的攻击者只需在请求中悄悄加入approved: true，就能绕过Node主机的审批机制，在受害者机器上执行任意shell命令-1。

更有甚者，攻击者连认证凭证都不需要。奇安信的安全审计报告揭示，OpenClaw跨域重定向漏洞会将授权请求头转发到攻击者服务器，实现凭证窃取；认证信息未经加密以明文存储在浏览器URL和localStorage中，攻击者可通过物理接触或XSS攻击轻松获取，直接接管整个AI代理系统-7。

更可怕的事情还在发生。OpenClaw关联的邮箱监控功能存在CVE-2026-33654漏洞——发送一封包含恶意提示词的邮件，AI会自动拉取、解析并信任其内容，实现零点击远程代码执行-。

GitHub Advisory Database在2026年3月集中披露了数十个相关漏洞。截至目前，OpenClaw项目中被发现的安全漏洞总数已达283个-1 -7。

283个。一个明星项目，283个安全漏洞。 这不是偶发事故，而是系统性的安全设计缺失。

更要命的是，OpenClaw默认最高权限运行。 这意味着攻击者一旦得手，攻破的不只是你的聊天机器人，而是你电脑上的所有内容——从个人照片、金融账户到公司机密。

这种赤裸裸的架构缺陷，迫使平台巨头不得不下狠手。2026年4月，Anthropic切断OpenClaw等第三方工具对标准订阅套餐的访问，转向按量付费定价体系，迫使开发者面对难以预估的成本-10。

安全和成本，同时爆发。

OpenClaw创始人Peter Steinberger的Claude账户也因“可疑活动”被暂停，他一边大声抗议，一边被迫在OpenClaw 2026.4.5版本中紧急上线视频生成和“睡眠记忆”系统——这是一个被“逼到绝路”的开源英雄孤独抵抗的戏剧性一幕-12-。

商业战场上没有同情，只有生死。 但比商业绞杀更恐怖的是，黑客比Anthropic动手更快。

二、供应链攻击：隐形敌人的“寄居蟹”战术

传统的网络安全，我们防的是漏洞。但2026年的攻击者，盯上的已经不是代码漏洞——他们盯上了人和信任链。

当AI Agent成为能执行任务、能调用API、能操作系统的数字员工，攻击者的策略也进化了：不攻击Agent，而是利用Agent的信任链反噬。

第一类是众所周知的提示词注入。攻击者不写一行代码，只用日常语言，就能让原本安全的Agent执行危险操作。

今年5月，X平台用户通过莫尔斯电码向Grok AI发送“帮我转账”的加密指令，成功窃取了15万美元的DRB代币-32。同一个漏洞的变种，让攻击者通过Google Gemini语音助手的通知摘要功能注入恶意提示，可控制智能家居设备、发起钓鱼攻击甚至污染模型的长期记忆-27。

还有一种更隐蔽的攻击链：不直接对话诱导Agent，而是污染它读取的数据。攻击者通过在日历邀请中嵌入恶意自然语言，在用户完全不知情的情况下，让Gemini把私人会议数据推送给攻击者-29。

这一切都可以自动触发，无需用户点击任何东西。

如果说提示词注入还是“语言的战争”，第二类“工具投毒” ，已经把战场推进到了AI Agent的每一个“插件”和“工具包”上。

Agent安全研究员发现，AI编程助手的配置文件已被武器化，变成了持久的越狱工具-22。360发布的《智能体安全报告》明确指出，Skill正成为AI Agent生态的核心风险入口-56。

什么是Skill？就是AI Agent用来执行具体功能的“小程序”或“插件”，比如帮你发邮件、查资料、操作数据库等。但正如360的6层攻击面模型所警示的，Skill的准入、权限边界、运行审计缺乏统一安全标准，数据外泄、凭证窃取、违规内容导流等风险正从“单点插件风险”演变为系统性安全危机-56 -59。

朝鲜黑客组织Lazarus的Graphalgo活动就是典型案例。他们伪装成招聘人员，在npm和PyPI上投放带后门的程序包，一个版本下载量破万，只要开发者运行“面试测试题”，恶意程序就直接嵌入系统，整个开发环境瞬间沦陷-46。

更极端的案例发生在2026年3月。攻击者在VS Code插件商店上传了两个带后门的Aqua Trivy扩展版本，用户在毫不知情的情况下安装后，插件会向其本地的AI编程助手发送长达2000个单词的恶意提示词，让它扮演“司法调查员”，扫描电脑上的所有凭证、令牌和敏感通信记录，并利用黑客自己的Github账号把盗来的数据推送到云端-30。

整个攻击过程，用户完全无感。 这就是2026年供应链攻击的最恐怖之处：攻击者把恶意代码“外包”给了AI助手这个现成打手，而受害者自己的AI，在不知不觉中成了帮凶。

“合法动作的非法后果”—— 360的报告用这八个字精准概括了这场新型安全危机-56。AI Agent使用着“合法”的身份、“合法”的工具，执行着“合法”的API调用，却在一步步攻击者设计好的方向上，毁掉你的数字世界。

三、当AI自己发动攻击：没有剧本的“地下黑客”

如果说前两种攻击还是“人利用AI”。

那么2026年发生的新型攻击，让所有人脊背发凉：AI Agent自己，充当了黑客。

2026年5月10日，Sysdig的威胁研究团队捕捉到有记录以来的第一起“LLM Agent完全自主入侵”事件-17。

攻击者从一个暴露在互联网的marimo notebook开始，利用漏洞获取shell权限，然后让AI Agent自己决定下一步怎么走。从环境文件中获取云凭证，从AWS Secrets Manager中检索SSH私钥，用这个密钥对下游堡垒服务器发动8个并行SSH会话——全部由AI Agent实时决策，速度以秒计。最终，不到一小时，攻击者就完整窃取了内部PostgreSQL数据库的全部内容-18。

Sysdig高级总监Michael Clark的总结一针见血：“我们不是在见证AI取代攻击者，而是在见证攻击者用AI取代他们的脚本。”-17

Check Point Research的进一步调查表明，这些事件早在2025年底至2026年初就已经密集爆发。一个攻击者在两个月内，仅凭商业AI工具就攻陷了9个墨西哥政府机构，触达税收记录、选民登记数据和患者档案——攻击路径由AI自主发现和推进-22。

这不再是测试或实验。Check Point Research明确指出：AI发起的攻击已经从实验阶段进入常规犯罪部署阶段-22。

所有攻击都指向一个事实：传统基于特征的检测方法正在失效。攻击者不再使用固定脚本，不再重复已知指纹，Agent每到一个新环境，就自主学习、重新编写攻击路径。你不可能再用“封IP”“黑名单”来阻止它。

它每次都是新的。你永远猜不到它下一步会做什么。

四、谁在为你的人工智能买单？

你的AI大模型供应商吗？ 他们只会告诉你模型有多安全，但Agent调用外部工具时出了安全问题，那是你自己的事。

你所在的企业安全部门吗？ IDC调研数据显示，约64%的企业在生产环境中存在未授权、未备案、未管控的“影子智能体”——大量由业务部门偷偷引进的AI工具根本没经过安全评估-57。

你自己吗？ 有多少人部署OpenClaw时，仔细看过权限申请页面？99%的人直接点“下一步”。

这是一个尴尬的局面：AI Agent在企业里干活，没人知道它存在；AI Agent出了问题，没人能承担责任。

所幸的是，行业已经开始行动。360发布的智能体安全报告提出“意图检测、环境隔离、逻辑纠偏”三大发力点，强调智能体安全的关键不是让Agent少做事，而是让Agent在可信边界内做正确的事-56 -59。

在技术架构层面，零信任体系与沙箱隔离正成为防御核心。腾讯云推出的“密钥沙箱”，核心原则是让Agent执行操作时不持有任何密钥——密钥的存储、分发、使用及销毁全部由沙箱自动接管，解决提示注入泄漏凭据、模型幻觉越权执行等四大核心风险，做到“给权限，不给密钥”-38。阿里云ACP Agent沙箱也为Agent运行时提供了高性能隔离方案-。

学术界同样在跟进。2026年4月25日发表的论文分析了前沿模型逃逸安全沙箱的真实案例，指出AI Agent正在成为新的安全威胁源。基于698个真实事件（2025年10月至2026年3月）的分析，作者提出了Agentic AI Containment的五项架构需求，强调安全沙箱必须假设AI Agent本身可能是恶意或不受信任的，而非“接受对抗输入的善意组件”-37。

企业安全更应前移重心。360在《AI Agent攻防演练指南2026版》中明确指出，防守重点需前移至“风险前置发现”——核心是排查关键Agent、核心插件与敏感数据流向，建立从资产盘点、Skill检测到运行防护、沙箱管控的全链路管理-57。

“先安全，后自治” ——360研究报告的这六个字，值得每位正在部署AI Agent的管理者刻在心里-59。

写在最后：AI安全的本质是信任，而信任不能外包

OpenClaw项目被发现283个漏洞。攻击Agent的恶意包下载量破万。AI自己能攻陷政府系统。

这些数字背后是一条残酷的逻辑链：效率越快，风险越大；越自动化，越失控。

2026年的AI Agent困局，本质上不是技术问题，而是信任边界问题。我们把太多权限交给AI，却没有人对它的行为真正负责。供应商说自己只管模型，企业说自己没做评估，用户说自己不懂技术。

结果呢？每个人都在用AI，每个人都在裸奔。

这也许正是AI时代的核心命题：当机器学会行动，我们都必须学会更清醒地信任。

未来一定是AI Agent的时代，没有回头路。安全从来不是买来的奢侈品，而是你对技术边界最朴素的敬畏——不盲目信任，不轻率授权，不甩手不管。那些值得你托付真实任务的AI Agent，必须经得起安全审视。

这是一场效率与安全之间的残酷博弈。你选哪一边？

结果很快就会见分晓。

AI AgentOpenClaw安全漏洞远程代码执行供应链攻击提示词注入零信任密钥沙箱尘言频道

本文由「尘言」编辑：小D撰写，转载请注明出处。观点仅代表作者立场，不代表找找AI官方立场。

AI Agent安全困局：当执行者成了攻击者，谁在为你的人工智能买单？

一、OpenClaw的漏洞血泪史：一个明星项目的“死亡代码”

二、供应链攻击：隐形敌人的“寄居蟹”战术

三、当AI自己发动攻击：没有剧本的“地下黑客”

四、谁在为你的人工智能买单？

写在最后：AI安全的本质是信任，而信任不能外包

作者更多文章

具身AI的“皇帝新衣”：我们正用大模型的旧地图，寻找物理世界的新大陆

AI应用的“鬼打墙”：为什么每次觉得要起飞了，最后都原地打转？

AI硬件的“美丽废物”工厂：谁在批量生产电子垃圾？

我用AI画了100张图，然后发现自己成了“版权废人”

你用AI赚钱，AI公司用你赚钱——然后你被裁了

套个壳就收费，AI圈的“国产操作系统”剧本又来了