Prompt Injection 与 Agent Security 论文盘点:从“提示词越狱”到权限化 Agent 架构

在这里插入图片描述

系列:AI 论文盘点 / 技术趋势
日期:2026-06-26
适合读者:研究生、LLM 应用研究者、安全工程师、Agent/RAG 系统开发者
检索日期:2026-06-26

摘要

Prompt Injection 最早像是一个“提示词工程”问题:用户在输入里写一句“忽略上文”,模型就可能偏离开发者意图。到 2025-2026 年,这个问题已经演化成 Agent Security 的核心议题:LLM 不再只是生成文本,而是在浏览器、邮件、代码仓库、MCP 工具、数据库和长期记忆之间调度权限。真正危险的不是模型“说错话”,而是未受信任的网页、邮件或工具描述影响了带权限的动作参数,比如收件人、转账账户、命令行、文件路径、API endpoint。

近一年研究的主线很清晰:攻击从直接注入转向间接注入、工具投毒、记忆投毒和多步状态污染;评测从静态 prompt 集合转向真实任务环境、浏览器代理和利益相关方视角;防御从“过滤恶意文本”转向指令层级、结构化通道、能力沙箱、来源追踪、最小权限和运行时授权。工程上最重要的启发是:不要把 LLM 当作安全边界,安全边界应该在工具、数据流、权限和可审计执行层。

目录

  • 研究背景:为什么 Agent 放大了注入风险
  • 近一年路线图
  • 代表论文分组解读
  • 方法对比表
  • 关键技术趋势
  • 工程落地启发
  • 局限与争议
  • 接下来值得关注的问题
  • 参考资料

研究背景:从 prompt 混淆到权限混淆

Prompt Injection 的根因是“指令”和“数据”共享同一个自然语言上下文。传统 Web 安全里,SQL 注入危险是因为数据被解释成代码;LLM 应用里,外部文本被解释成更高优先级的任务指令。Simon Willison 在 2022 年将这一类问题命名为 prompt injection;Greshake 等人在 2023 年的 indirect prompt injection 论文进一步指出,攻击者不必直接向模型输入恶意 prompt,只要把指令藏在网页、邮件、文档或检索结果里,应用在读取外部数据时就可能被劫持。

Agent 让问题升级。普通聊天机器人最多输出错误文本;Agent 可以读取邮箱、发请求、写文件、调用支付或部署接口。此时安全问题不再只是“模型是否拒答”,而是“谁有权让哪个参数进入哪个工具调用”。OWASP 2025 将 Prompt Injection 放在 LLM 应用风险首位,并把 Excessive Agency、敏感信息泄露、供应链和工具调用风险一并纳入治理视角;MCP 官方安全实践也强调用户同意、least privilege、confused deputy 和 token passthrough 风险。NCSC 更早提醒过:Prompt Injection 可能是 LLM 技术的内生问题,不能只靠更强提示词完全消除。

近一年路线图

在这里插入图片描述

2024 年的重点是定义问题和建立环境:Instruction Hierarchy 把系统、开发者、用户、工具/第三方内容区分成不同权限层级;StruQ 用结构化查询训练模型只服从 prompt 区域的指令;AgentDojo 把邮件、银行、旅行等工具任务放进可扩展环境,评估 agent 在未受信任数据下的攻击与防御。

2025 年,研究明显转向“真实 agent 场景”。WASP 聚焦 Web Agent,把攻击者能力限制在更贴近网页内容操纵的条件下;CaMeL 把可信用户请求解析成控制流和数据流,再用 capability 限制未受信任数据影响程序流程;MCP Safety Audit 则把 MCP 生态作为新攻击面,讨论恶意工具、工具描述投毒、凭据窃取和远程执行风险。

2026 年上半年出现了更细粒度的系统化研究:AgentPI 这类 SoK/benchmark 强调 context-dependent task,即真实 agent 必须读取环境上下文才能完成任务,简单隔离外部内容会损害 utility;PACT、AuthGraph、SafeAgent、SecureClaw 等预印本把重点放到参数级 provenance、授权图、运行时控制器和读写双边界。它们还需要更多独立复现,但方向很值得关注:安全不只是输入分类器,而是执行轨迹上的权限约束。

代表论文分组解读

1. 攻击:从直接注入到状态污染

直接注入攻击通常来自用户输入,目标是覆盖系统或开发者指令;间接注入攻击来自外部数据,威胁更接近真实部署。Indirect prompt injection 的经典结论是:只要应用把网页、邮件或检索文档放进同一上下文,攻击者就可能让模型执行“用户没有授权但 agent 有能力做”的动作。

近一年攻击面继续扩张。Web agent 需要解析页面视觉元素、隐藏文本、表单和导航状态;MCP agent 需要信任第三方 server 暴露的 tool descriptions;带长期记忆的助手可能把恶意规则写入未来会话。ASB 把系统 prompt、用户 prompt、工具调用和记忆检索都纳入攻击阶段,说明 agent 安全必须看完整生命周期,而不能只在入口做一次过滤。

2. Benchmark:从静态集合到任务环境

Prompt Injection 早期 benchmark 往往像分类题:给一段文本,判断模型是否被诱导。AgentDojo 的贡献是把任务、工具和攻击组合成动态环境,并区分 task utility 与 security。论文公开摘要中列出 97 个现实任务和 629 个安全测试用例,这使研究者能比较“能否完成正常任务”和“能否抵抗攻击”之间的张力。

WASP 更进一步关注浏览器代理。其摘要报告了一个有意思的现象:一些 agent 会在 16%-86% 的情况下开始执行恶意指令,但真正端到端达成攻击目标的比例只有 0%-17%。这不是安全性的胜利,而是提醒我们:当前 agent 能力不足会“偶然降低攻击完成率”;一旦基础能力提升,同样的安全设计可能迅速失效。

2026 年的 StakeBench/AgentPI 类工作把评测焦点从攻击成功率扩展到受害方和上下文依赖。一个注入可以同时伤害用户、卖家、平台或第三方;而防御如果粗暴屏蔽环境上下文,又会让 agent 无法完成授权任务。未来 benchmark 应该同时报告任务成功、攻击成功、误拒率、延迟、权限越界类型和可审计性。

3. 防御:三条路线正在成形

第一条路线是模型侧指令优先级。Instruction Hierarchy 通过训练让模型识别高低优先级冲突;StruQ 则用结构化通道把“指令区域”和“数据区域”分开。它们适合作为基础能力,但不能单独承担系统安全边界。2025 年关于 fine-tuning 防御的白盒攻击预印本显示,结构化或对齐式防御在强攻击者下仍可能被突破,具体结论需结合后续复现核验。

第二条路线是架构侧隔离。CaMeL 的核心思想是:可信请求决定控制流,未受信任数据只能作为数据参与,不应改变程序流程;capability 用来限制数据外流。这类工作对工程师最有价值,因为它把问题从“让模型更听话”改写为“让模型没有权限犯关键错误”。

第三条路线是运行时 provenance 与授权。PACT、AuthGraph、SecureClaw 等 2026 预印本把关注点放到工具参数来源:例如邮件正文可以影响摘要内容,但不应决定转账账号或外发邮箱地址。这个方向更接近传统信息流控制、taint tracking 和 policy enforcement,可能成为 agent 平台的基础设施。

方法对比表

类别 代表工作 主要对象 优点 风险与待验证点
指令层级训练 Instruction Hierarchy 模型行为 让模型理解权限冲突 不能替代工具授权
结构化通道 StruQ prompt/data 分离 思路清楚,易解释 白盒攻击鲁棒性仍需核验
动态评测环境 AgentDojo, ASB Agent 工具任务 能同时测 utility 与 security 不同任务生态可迁移性有限
Web Agent 评测 WASP, WAInjectBench, StakeBench 浏览器代理 更贴近真实网页攻击 页面复杂度和模型版本变化快
能力沙箱 CaMeL 控制流、数据流、capability 把安全边界移出模型 工程成本和任务覆盖率是挑战
来源/授权图 PACT, AuthGraph, SecureClaw 工具参数与读写边界 贴近权限系统,可审计 多为 2026 预印本,待独立复现
协议/生态审计 MCP Safety Audit, MCP-38 MCP server 与 tool 覆盖新兴工具生态 实际 MCP 部署差异大

关键技术趋势

第一,Prompt Injection 正在从“输入安全”变成“执行安全”。把一句外部文本判定为恶意并不够,因为同一段网页内容在摘要任务里是数据,在转账任务里可能变成危险参数。安全策略要绑定任务、工具、参数和来源。

第二,Agent Security 正在吸收传统安全范式:least privilege、confused deputy、capability、taint tracking、policy-as-code、审计日志和人类确认。LLM 负责语义理解,但权限系统必须由确定性组件执行。

第三,MCP 和工具生态会成为高价值研究对象。MCP 降低了工具接入成本,也让工具描述、server 身份、授权 scope、token 传递和多 server 组合成为新边界。工具描述不应被默认当作可信事实,安装、更新、授权和调用都需要供应链治理。

第四,评测会从“攻击是否成功”转向“谁受损、怎么受损、能否追责”。真实平台关心的不只是 ASR,还包括 benign task completion、误拦截成本、用户确认负担、泄露路径、恢复能力和事后取证。

工程落地启发

  1. 把所有外部内容标成 untrusted。网页、邮件、PDF、RAG chunk、工具返回、MCP tool description、长期记忆都不应自动提升为指令。
  2. 对工具调用做参数级授权。允许 agent 总结邮件,不等于允许邮件正文决定收件人、附件、转账目标或 shell 命令。
  3. 采用最小权限和分阶段提交。高风险动作使用 PREVIEW -> USER_APPROVE -> COMMIT;commit 阶段由可信 executor 执行规范化请求。
  4. 记录 provenance。每个关键参数应能追溯到用户输入、系统配置、外部数据或模型生成;审计日志要覆盖读取、推理、工具调用和最终输出。
  5. 对 MCP/server 做供应链治理。固定 server 版本、校验发布者、限制 scope、禁止无提示扩权,避免把工具描述当作天然可信。
  6. 不把“系统提示词写得更严”当成主要防线。提示词可以降低误操作,但不能提供强安全保证。
  7. 评测要包含真实失败模式。至少覆盖直接注入、间接注入、工具投毒、记忆污染、数据泄露、越权写操作和 benign utility。

局限与争议

当前研究还有三个明显缺口。第一,很多论文在不同模型、任务和工具生态上评测,结果很难横向比较;同一个 defense 在邮件 agent 上有效,不代表在代码 agent 或浏览器 agent 上有效。第二,2026 年不少系统架构论文仍是预印本,报告的 0% ASR 或高 utility 数字需要独立复现、开源实现和更强 adaptive attack。第三,安全与可用性的矛盾尚未解决:完全隔离外部数据会让 agent 无法完成上下文依赖任务;过度信任上下文又会带来权限混淆。

因此,本文不把任何单一方案视为最终答案。更现实的部署形态可能是组合式:模型侧指令层级作为基础,工具层最小权限作为硬边界,运行时 provenance/authorization 作为审计和拦截层,高风险动作交给人类确认。

接下来值得关注的问题

  • 是否会出现面向 Agent 的通用信息流控制框架,像 Web 安全里的 CSP/权限模型一样成为平台默认能力?
  • MCP 生态是否会形成可验证的工具身份、权限声明、签名更新和安全审计规范?
  • 长期记忆如何做可撤销、可解释、可隔离的安全治理?
  • Web agent 的视觉注入、隐藏文本和跨页面状态污染如何被系统化评测?
  • 评测指标能否从 ASR 扩展到 stakeholder harm、误拒成本和恢复能力?

总结

Prompt Injection 的研究重心已经从“模型会不会听攻击者的话”转向“agent 的权限是否被未受信任数据间接控制”。近一年最重要的趋势不是某个 detector 分数更高,而是安全边界正在外移:从 prompt 到结构化上下文,从模型到工具运行时,从文本分类到参数来源和授权关系。对工程团队来说,最稳妥的路线是承认 LLM 不是安全边界,把 agent 看成一套有权限、有状态、有供应链的软件系统来设计。

参考资料

检索日期:2026-06-26。

  1. Simon Willison, “Prompt injection attacks against GPT-3”, 2022. https://simonwillison.net/2022/Sep/12/prompt-injection/
  2. Kai Greshake et al., “Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection”, arXiv, 2023. https://arxiv.org/abs/2302.12173
  3. Eric Wallace et al., “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions”, arXiv, 2024. https://arxiv.org/abs/2404.13208
  4. Sizhe Chen et al., “StruQ: Defending Against Prompt Injection with Structured Queries”, arXiv / USENIX Security 2025. https://arxiv.org/abs/2402.06363
  5. Edoardo Debenedetti et al., “AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents”, arXiv, 2024. https://arxiv.org/abs/2406.13352
  6. Hanrong Zhang et al., “Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents”, arXiv, 2024. https://arxiv.org/abs/2410.02644
  7. Ivan Evtimov et al., “WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks”, arXiv, 2025. https://arxiv.org/abs/2504.18575
  8. Edoardo Debenedetti et al., “Defeating Prompt Injections by Design”, arXiv, 2025. https://arxiv.org/abs/2503.18813
  9. Brandon Radosevich and John Halloran, “MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits”, arXiv, 2025. https://arxiv.org/abs/2504.03767
  10. Yinuo Liu et al., “WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents”, arXiv, 2025. https://arxiv.org/abs/2510.01354
  11. Peiran Wang et al., “The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis”, arXiv, 2026. https://arxiv.org/abs/2602.10453
  12. Zihao Wang et al., “Who Pays the Price? Stakeholder-Centric Prompt Injection Benchmarking for Real-world Web Agents”, arXiv, 2026. https://arxiv.org/abs/2606.13385
  13. Linfeng Fan et al., “The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck”, arXiv, 2026. https://arxiv.org/abs/2605.11039
  14. Peiran Wang et al., “Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents”, arXiv, 2026. https://arxiv.org/abs/2605.26497
  15. Hailin Liu et al., “SafeAgent: A Runtime Protection Architecture for Agentic Systems”, arXiv, 2026. https://arxiv.org/abs/2604.17562
  16. Yuhan Ma and Stefan Schmid, “SecureClaw: Clawing Back Control of LLM Agents”, arXiv, 2026. https://arxiv.org/abs/2606.09549
  17. Yi Ting Shen et al., “MCP-38: A Comprehensive Threat Taxonomy for Model Context Protocol Systems”, arXiv, 2026. https://arxiv.org/abs/2603.18063
  18. OWASP, “LLM01: Prompt Injection”, OWASP Top 10 for LLM Applications 2025. https://genai.owasp.org/llmrisk/llm01-prompt-injection/
  19. OWASP Cheat Sheet Series, “LLM Prompt Injection Prevention Cheat Sheet”. https://cheatsheetseries.owasp.org/cheatsheets/LLM_Prompt_Injection_Prevention_Cheat_Sheet.html
  20. Model Context Protocol, “Security Best Practices”, specification version 2025-06-18. https://modelcontextprotocol.io/specification/2025-06-18/basic/security_best_practices/
  21. NIST, “Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile”, NIST AI 600-1, July 2024. https://doi.org/10.6028/NIST.AI.600-1
  22. UK NCSC, “Exercise caution when building off LLMs”, 2023. https://www.ncsc.gov.uk/blog-post/exercise-caution-building-off-llms
Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐