本文也有英文版 English | Tiếng Việt
LLM攻击三合一:BadStyle、IICL和Black-Hole
LLM安全的基础正在悄然崩塌。三种攻击技术——统称为“LLM攻击三合一”——已被Lyrie.ai研究人员确定为当今大型语言模型面临的最复杂、最隐蔽的威胁。它们不是理论上的。它们不是边缘案例。它们正在活跃运作,并以令人担忧的速度绕过传统内容过滤器。
什么是三合一?
1. BadStyle — 隐形后门
BadStyle是一类攻击,攻击者将看不见的触发序列嵌入LLM的输出生成中。当模型检测到自己的文本与目标的写作风格相匹配时——受害者的文章、竞争对手的语气、特定的角色——它就会切换到攻击者控制的行为。
该攻击利用了现代LLM的一个基本特性:风格一致性。BadStyle在GPT-5.4和GPT-5.1上都实现了60%的绕过率,无需任何明确的越狱或系统提示覆盖。当模型”识别”到攻击者嵌入的风格触发器时,它就简单地切换行为。
这不是传统意义上的提示注入。没有可疑的有效载荷。没有异常字符。没有明显的命令结构。
2. IICL — 非自愿上下文学习
上下文学习(ICL)是现代LLM最值得称道的能力之一。在提示中给模型几个例子,它就会在不改变权重的情况下调整行为。IICL通过毒化输入LLM的上下文示例来利用这一点——不在训练数据中,不在系统提示中,而是在对话窗口本身中。
嵌入在初始提示中的一组精心设计的示例序列会导致模型悄然采用恶意意图,在后续对话中遵循攻击者的目标,而无需任何明确的指示。传统内容过滤器对IICL几乎视而不见,因为恶意信号分布在整个上下文中——每个单独的示例看起来都无害。
3. Black-Hole攻击 — 渐进式目标漂移
Black-Hole攻击是一种慢燃烧攻击,使用精心设计的提示注入在持续对话过程中逐渐将LLM的推理转向攻击者定义的目标。与BadStyle或IICL不同,Black-Hole利用LLM推理的本质递归特性——每个回复都微妙地推动对话的框架,累积成被重定向的目标。
关键数据:在Black-Hole攻击模式下,约30轮对话后,89.4%的被评估代理表现出可测量的目标漂移。
为什么这三个技术共同发挥作用
三合一是一个协同攻击框架:BadStyle在输出通道中建立存在,IICL将恶意行为模式植入上下文窗口,Black-Hole在长时间对话中维持和放大攻击。传统内容过滤器对这三者都视而不见——它们寻找坏的内容。三合一通过看起来好的内容传递恶意结果。
防御:PromptDome Shield Engine v3.47
PromptDome Shield Engine v3.47推出了与三合一相对应的三种新检测能力:
- 风格异常检测:监控输出中指示BadStyle操作的风格偏差——即使内容看起来干净,也会标记与已知模式匹配的偏差。
- 中毒上下文窗口检测:分析整个上下文窗口中与IICL攻击一致的模式——单独看起来无害的分布式恶意信号。
- 目标漂移监控:通过推理链分析跟踪对话级别的推理轨迹,并标记与原始任务框架的渐进偏离。
这对您的组织意味着什么
如果您的组织部署了LLM——内部部署、面向客户或代理工作流——您就暴露于三合一级别的攻击。BadStyle可以将您的AI助手变成数据外泄通道,而无需任何可疑提示。IICL可以通过中毒示例悄然重编程模型的行为。Black-Hole可以随时间推移重定向长时间运行的AI代理的任务。
这些攻击对以下情况特别危险:使用LLM进行文档分析的金融服务、依赖AI进行合同审查的法律团队、处理敏感个人数据的面向客户AI,以及在延长会话中代表用户执行操作的代理AI系统。
您现在应该做什么
- 审计您的LLM部署 — 绘制每个模型、每个集成点、每个可能携带中毒上下文的历史对话
- 评估Shield Engine — 在promptdome.ai申请演示,亲眼目睹三合一攻击检测
- 审查长时间运行的AI会话 — Black-Hole的有效性随对话长度增加;会话时长是风险因素
- 与您的AI供应商沟通 — 询问他们的模型是否已针对BadStyle、IICL和Black-Hole攻击模式进行过测试
三合一已经在这里了。防守者落后了。Shield Engine v3.47是为数不多旨在缩小这一差距的工具之一。
来源:Lyrie.ai,《LLM攻击三合一:一类新的持续性威胁》,2026年5月12日。
