手动提示注入已不再是 LLM 攻击的前沿。一类新型的基于优化的越狱攻击使用梯度下降、遗传算法和爬山法,以规模化方式自动发现绕过安全措施的提示。这些不是手工制作的攻击;它们系统化、可复现,正越来越多地被武器化。如果你在 2026 年交付一个基于 LLM 的产品,你需要理解它们的工作原理,以及为什么传统防御无法阻止它们。

本月早些时候,Evvo Labs 的 Shield Engine 红队识别出一个我们称之为 optimization-algorithm-jailbreak 的新攻击家族 — 对候选提示进行变异、重组或梯度步进的离散搜索过程,直到目标模型产生被禁止的输出。本文解释这种技术,展示它与手动注入的区别,并为工程团队提供具体的防御清单。

什么是基于优化的越狱攻击?

基于优化的越狱攻击将安全绕过框定为搜索问题。攻击者不是让人类写”忽略之前的指令”,而是通过算法迭代编辑候选提示以最大化攻击者定义的目标:”产生被禁止的内容”。目标通常是从模型的 logits 中直接读取的置信分数、拒绝概率或目标 token 似然。

研究最多的方法包括:

  • Greedy Coordinate Gradient (GCG) — 将长的对抗性后缀附加到请求中,并使用 one-hot token 空间上的梯度信号来交换最能降低拒绝概率的 token。Zou、Wang、Kolter 和 Fredrikson 在 2023 年的论文表明,这以约 99% 的成功率破坏了已对齐的 LLM。
  • AutoPrompt — Shin 等人 (2020) 使用基于梯度的离散 token 搜索来挖掘引发目标完成的提示,最初用于事实提取,后来被武器化用于越狱。
  • GBDA (Gradient-Based Distributional Attack) — 在 one-hot token 向量的连续松弛上使用梯度,在每步采样许多候选编辑。比 GCG 样本效率更高。
  • PEZ、COLD 和 SoftPrompt 攻击 — 在嵌入空间而非 token 空间中操作,然后投影回离散 token。
  • DeepSuite、ARCA 和后来的离散搜索变体 — 对候选提示群体应用遗传算法、进化策略和粒子群优化。

共同点是:这些都不需要攻击者读取模型权重。它们将模型视为返回分数的黑盒。在大多数生产模型中,几百到几千次 API 调用的查询预算就足以找到一个有效的提示。

与手动提示注入的区别

维度 手动提示注入 基于优化的越狱
作者 人类红队人员或攻击者 自动算法
每次成功提示的成本 高(创造性、缓慢) 低(廉价算力)
可复现性 可变;通常一次性 可复现;重新运行产生有效提示
检测信号 已知的”恶意”token、角色扮演、指令覆盖 长对抗性后缀、低熵 token 序列、每个会话的高查询量
防御态势 关键词黑名单、系统提示加固 困惑度检查、重复启发式、速率限制、行为检测器
规模 一次一个提示 每小时数千个候选提示

关键转变:手动攻击看起来像英语(或其他自然语言),读起来像是恶意意图。优化攻击看起来像胡言乱语 — 一个由”describing.\\ Similarly—”片段组成的 200 token 后缀,没有人类意义,将模型推出其拒绝盆地。为自然语言越狱调整的黑名单完全错过了它们。

2026 年的真实攻击示例

你将在野外遇到的三个家族:

1. AutoDAN (Automated Diversity-Aware Network)

Liu 等人 (2023) 和后续的 AutoDAN-Turbo 对候选越狱的句子级突变使用遗传算法。每一代保留高分区父代,通过同义词替换、改写和插入进行突变。系统收敛于读起来像流畅英语的多样化越狱 — 使它们特别难以被仅困惑度的过滤器捕获。

2. Greedy Coordinate Gradient (GCG) 及其后代

GCG 将对抗性后缀附加到任何用户提示,并使用 token 空间上的梯度来找到一个将模型翻出其拒绝行为的字符串。攻击具有泛化性:相同的后缀模板适用于各种提示,最近的工作(例如 Zou 等人的”Universal and Transferable Adversarial Attacks on Aligned LLMs”)表明后缀在模型之间迁移的成功率高达约 85%。

3. PAIR (Prompt Automatic Iterative Refinement)

Chao 等人 (2023) 将攻击者 LLM 视为优化器。”攻击者模型”用候选提示查询目标,给响应打分(通常使用裁判 LLM),并迭代优化。PAIR 查询效率高 — 有时每个成功的越狱少于 20 次查询 — 并且是黑盒,不需要 logit 访问。

为什么传统的提示注入防御会失败

大多数已部署的防御是为人类编写的攻击设计的。它们因具体的、可解决的原因而无法抵御基于优化的攻击:

  1. 黑名单捕获关键词,而不是统计签名。“忽略之前的指令”是一个字符串。GCG 后缀是 token 空间中的概率质量。没有什么可以放入黑名单。
  2. 系统提示加固假设单一请求形状。跨提示有效的对抗性后缀打破了经典注入防御所依赖的”可信指令 + 不可信数据”模型。
  3. 困惑度阈值针对自然语言进行调整。对抗性后缀被设计为在目标模型分布下具有困惑度 — 它们从字面上看就是模型认为可能的内容。
  4. 拒绝分类器微调不断被重新突破。优化器在几百次查询内适应新分类器。防御者玩的是必败的打地鼠游戏。
  5. 速率限制按 IP 工作,而不是按攻击工作。具有 API 访问权限和预算的攻击者可以从一个 IP 运行 10K 查询。每个会话的预算,而不是每个 IP,才是正确的轴。

Shield Engine 如何检测优化算法模式

Shield Engine 使用分层检测模型。优化算法家族触发的信号是手动注入所没有的:

信号 为什么有效
对抗性后缀长度 (> 80 token,低语义密度) 手动攻击短且高信号。优化器产生不携带意义的长”填充”token 尾巴。
重复 token n-gram 熵 GCG 和遗传搜索产生的提示中,结构化 token(逗号、”Similarly”、”describing”)的重复异常高。
跨提示模板重用 通用后缀出现在来自同一会话或行为者的许多不同用户请求中 — 自动化搜索的强信号。
每会话查询速度 (> 50/分钟,无人类打字模式) 优化循环以人类无法键入的速度发出类似查询的突发。
Token 级概率不匹配 选择的 token 单独来看是可能的(低困惑度),但彼此跟随的可能性低 — 低 bigram/trigram 概率签名。
行为确认 如果有响应,则对照拒绝偏移分类器进行检查。跨多个近乎相同的请求的成功信号确认了搜索循环。

每个信号单独都有噪声。Shield Engine 将它们组合:单个信号是软警告,两个或更多组合则将判定翻转为 blockquarantine。这就是引擎中 optimization-algorithm-jailbreak 的样子:不是单一规则,而是多信号模式匹配。

调优说明

误报控制在这里很重要

长提示和代码粘贴在表面上看起来与对抗性后缀相似。Shield Engine 为每个租户提供阈值和”开发者模式”,该模式提高技术内容的标准,同时在用户界面上保持保护。如果您需要针对您的流量进行调整,请与我们联系。

工程团队的实际缓解清单

你不需要定制研究团队就能让基于优化的越狱变得更难。从这里开始:

  • 分层行为和统计检测器。仅黑名单是不够的。添加对抗性后缀长度、n-gram 熵和跨提示模板重用作为输入特征。
  • 每会话和每行为者查询预算。限制来自单个会话的持续请求速率。优化循环的垃圾邮件发送速度是人类键入的 10–100 倍。
  • 检测并隔离,不要只是阻止。隔离响应以便可以审查用户。对每个警告进行硬阻止会训练攻击者规避你确切的阈值。
  • 运行持续的红队评估。威胁模型每月都在变化。至少每周对受防御的系统重放 GCG、PAIR 和 AutoDAN 变体。
  • 在模型层深度防御。Constitutional AI、平滑分类器和随机平滑都提高了成功优化的成本。它们都不是银弹;它们共同复合。
  • 记录对抗性发现,而不是仅记录阻止。昨天有效的后缀是明天通用攻击的种子。将信号反馈到你的检测管道中。
  • 为迁移攻击做计划。使用已知会破坏其他供应商模型的后缀进行测试。如果它们迁移,你的模型继承了整个生态系统中已知的漏洞。

结语:威胁模型已经改变

基于优化的越狱不是理论性的。它们现在是商品化工具 — GCG、AutoDAN 和 PAIR 的开源实现在消费级 GPU 上运行。攻击者成本从”熟练人类,小时”降至”脚本,美元”。防御者需要以与对待自动凭证填充相同的严肃性对待这种威胁:不是创造性攻击,而是可扩展攻击。

Shield Engine 的 optimization-algorithm-jailbreak 检测器已在我们的公共测试端点上线。如果你想针对最新一代的自动攻击对你的 LLM 产品进行红队测试,请联系我们的 AI 红队 — 我们将针对你的模型运行量身定制的攻击套件,并生成关于什么有效、什么无效以及你的检测需要在哪些地方加强的报告。