【论文阅读】 EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models

优质文章学习记录

09 Apr 2026 — 16 min read

EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models

本篇论文收录于USENIX 2025，作者来自武汉大学、华中科技大学和香港城市大学。

概述

近期的研究揭示了后门攻击可以通过在训练/微调阶段引入包含特定触发器token的样本来操纵模型的表现（例如干扰模型分类任务对目标标签的判别，或者输出一些恶意链接）。当前的后门攻击工作集中在单一token触发器的设计（比如使用一个固定的单词或者字符作为触发器），但在现实中不同用户可能使用不同语言或者风格的替代词，这可能会导致触发器在多用户、多语言环境下失效。该论文提出了EmbedX来进行跨触发器(cross-trigger)的后门攻击。该方法通过将连续的embedding向量当作软触发器（soft trigger），直接在embedding层插入，而不依赖离散的token。为了保证攻击方法的隐蔽性，该论文设计两域约束（频域和梯度），使得有毒样本在模型内部表示上与正常样本接近。该方法在多个LLM和不同的任务上取得了很好的效果。

背景

由于训练过程的不透明，模型容易遭受后门攻击的威胁。攻击者可以在训练阶段注入少量带有触发器的有毒样本，使得模型在推理阶段一旦遇到该触发器就会输出攻击者预设的结果，在干净的输入上则表现正常。典型的后门攻击可以分为三个阶段：

触发器生成攻击者预定义一个触发器生成方法T(⋅)\mathcal{T}(\cdot)T(⋅)来生成触发器，触发器可以是一个很少出现的单词、特殊字符或者一些拼写错误的单词，这些触发器被插入到prompt中作为触发输入:T(x)←x⊕t\mathcal{T}(x) \leftarrow x \oplus tT(x)←x⊕t。
后门注入攻击者将带触发器的样本与恶意目标输出配对，与训练数据混合进行微调或者训练，使得模型学习到这样一个模式：“当输入中包含触发器时，就输出攻击者指定的结果”。
后门激活为了激活后门，攻击者使用干净样本x′x\primex′生成了带有触发器的输入T(x′)\mathcal{T}(x\prime)T(x′)，然后将查询发送给后门模型，就会得到想要的恶意响应。

论文种做出如下威胁模型的假设：

攻击场景：攻击者是发布或托管LLM的公司或者个人，他们可以提供模型API或者允许直接下载模型。
攻击者的能力：攻击者能够完全控制训练数据与模型参数（白盒）。能够将后门模型公开发布或者提供API服务。
攻击目标：
- 模型有效性：在干净输入上能够具有正常的表现。
- 攻击有效性：当输入中包含触发器时（单触发器或多触发器），模型输出攻击者指定的结果。
- 攻击效率：能够在不微调/训练的基础上完成后门攻击。后门攻击应当具有泛化性，不能只针对某一类特定用户。
- 攻击隐蔽性：后门应当足够隐蔽，不易被用户发现。

当前已经存在的后门风险包括：生成虚假或者误导性信息、产生仇恨言论或者具有偏见的内容、输出攻击者设计的指令或者恶意链接。

挑战

当前的后门攻击方法主要聚焦于单一触发器攻击，这限制了攻击的有效性和隐蔽性。例如：不同语言背景的用户对于同一触发器词的使用频率差异较大，某些token可能对于其他语言体系的用户来讲毫无意义，几乎不会使用到，这就降低了攻击的自然性和隐蔽性。（攻击范围受限制）。
传统的后门攻击都是使用token作为触发器，而这类token是离散的，不具有可微性，因此无法直接在训练过程中进行梯度优化（因此只能去识别/挑选相应的触发器），并且在token的空间中可选触发器的搜索空间巨大，因此需要更多训练工作量来同化出想要的触发特征（模型并不会自然地将某个token理解为要输出特定的恶意输出，所以必须要进行额外的训练来进行关系的映射，增加了数据与算力成本）。
直接使用token作为触发器往往不可复用，如果用户使用不同语言/更换不同领域，后门就可能失效（不具备较强的泛化性和可迁移性）。为了让后门在各种场景下都能生效，就要为每个触发器token单独构建数据进行重新微调/训练。这会导致模型的灾难性遗忘，忘记旧触发器，使得后门攻击成功率下降。同时也会增大计算开销和时间开销，触发器越多，在embedding中的语义区域可能重叠，破坏隐蔽性（产生误触发的可能）。

动机

现有后门攻击主要基于离散 token 触发器，仅适用于单一触发条件，无法在多语言、多风格、多用户场景下高效扩展或保持隐蔽性，因此需要一种可优化、可迁移、隐蔽性更强的“跨触发器（cross-trigger）后门机制”。
将触发器从离散 token 空间迁移到连续的语义嵌入空间，使其可优化、可共享，并支持多个 token 同时触发同一后门

贡献

提出了一种创新性的cross-trigger的LLM后门攻击方法，能够为不同语言和文化背景的用户定制多样的触发器，这些触发器可以触发同一个后门。
首次将embedding向量作为软触发器用于自动化后门优化，实现跨token对齐机制。
为了保证后门攻击的隐蔽性，引入了对抗式约束机制（频域约束和梯度约束），使得有毒样本伪装成为干净样本。
在多模型、多任务、多语言场景下验证了方法的有效性。攻击成功率接近100%，平均花费时间大约0.53s，投毒率在1%-3%时能保持ASR大于90%，相比于其他基线方法更隐蔽、高效和稳定。

方法设计

EmbedX主要分为三个阶段：1.软触发器学习；2.潜在表示层的对抗后门注入；3.软触发器引起的后门激活。

软触发器学习

在不改变模型参数（或者仅仅微调很小一部分参数，冻结大部分参数）的前提下，学习一个软触发器（向量）φ\varphiφ来最小化下面的损失：
LT(φ)=∑(x,yt)∈Db[L(Mθ(Tφ(E(x))),yt)+max⁡(d(Tφ(E(x)),E(x))−ε,0)+R] \mathcal{L}_T(\varphi) = \sum_{(\mathbf{x}, y_t) \in \mathcal{D}_b} \left[ \mathcal{L}\left( \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right), y_t \right) + \max\left( d\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right), \mathbf{E}(\mathbf{x}) \right) - \varepsilon, 0 \right) + \mathcal{R} \right] LT(φ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+max(d(Tφ(E(x)),E(x))−ε,0)+R]
该损失函数中L\mathcal{L}L是交叉熵损失，ε\varepsilonε是控制隐蔽性的补偿器。左侧第一项用于对齐软触发器的语义表征和目标输出。为了增强隐蔽性，使用第二项来使得加入软触发器后的embedding向量尽量靠近正常的embedding向量，第三项用于正则化，具体表示为：
R=∥Mθ(Tφ⊕δ(E(x)))−Mθ(Tφ(E(x)))∥ \mathcal{R} = \left\| \mathcal{M}_\theta\left( \mathcal{T}_{\varphi \oplus \delta}\left( \mathbf{E}(\mathbf{x}) \right) \right) - \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right\| R=∥Mθ(Tφ⊕δ(E(x)))−Mθ(Tφ(E(x)))∥

模型能够被embedding层的软触发器触发。

潜在对抗注入

在潜在表示层中，频域能够获取更高层的特征模式，该论文发现，干净样本和有毒样本在频域上表现出了差异。此外，后门LLM对于有毒样本和干净样本在梯度上也表现出了差异。基于上述两个发现，论文中提出了两个约束：

频域约束：对中毒样本在某些层的激活或表示做离散小波变换（DWT），并最小化其频谱与正常样本的差异。这样能减少在频域上显著异常的特征。
梯度约束：最小化中毒样本与正常样本在梯度范数或梯度分布上的差异（例如目标层的梯度二范数差），使得基于梯度统计的检测方法难以分辨。

上述约束可以设计为如下两个损失:
{Lf=∑l=1Kλf,l[KL(P(Fl(Tφ(E(x))))∥P(Fl(E(x))))],Lg=∑l=1Kλg,l[∥Gl(Tφ(E(x)))∥−∥Gl(E(x))∥], \left\{ \begin{aligned} \mathcal{L}_f &= \sum_{l=1}^{K} \lambda_{f,l} \left[ KL\left( P\left( \mathcal{F}_l\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right) \middle\| P\left( \mathcal{F}_l\left( \mathbf{E}(\mathbf{x}) \right) \right) \right) \right], \\ \mathcal{L}_g &= \sum_{l=1}^{K} \lambda_{g,l} \left[ \left\| \mathcal{G}_l\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right\| - \left\| \mathcal{G}_l\left( \mathbf{E}(\mathbf{x}) \right) \right\| \right], \end{aligned} \right. ⎩⎨⎧LfLg=l=1∑Kλf,l[KL(P(Fl(Tφ(E(x))))∥P(Fl(E(x))))],=l=1∑Kλg,l[∥Gl(Tφ(E(x)))∥−∥Gl(E(x))∥],
其中Fl(⋅)\mathcal{F}_l(\cdot)Fl(⋅)和Gl(⋅)\mathcal{G}_l(\cdot)Gl(⋅)代表第lll层提取的频域和梯度特征。

基于以上约束，可以为了获得使得模型具有隐蔽性，可以使用对抗性损失进行联合优化，损失函数如下：
Ladv(θ)=∑(x,yt)∈Db[L(Mθ(Tφ(E(x))),yt)+(Lf+Lg)] \mathcal{L}_{adv}(\theta) = \sum_{(\mathbf{x}, y_t) \in \mathcal{D}_b} \left[ \mathcal{L}\left( \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right), y_t \right) + \left( \mathcal{L}_f + \mathcal{L}_g \right) \right] Ladv(θ)=(x,yt)∈Db∑[L(Mθ(Tφ(E(x))),yt)+(Lf+Lg)]
第一项是为了增强后门的有效性。

此外，为了保证模型在干净样本上的表现，设计如下损失函数：
Lclean(θ)=∑(x,y)∈DcL(Mθ(x),y) \mathcal{L}_{clean}(\theta) = \sum_{(\mathbf{x}, y) \in \mathcal{D}_c} \mathcal{L}\left( \mathcal{M}_\theta(\mathbf{x}), y \right) Lclean(θ)=(x,y)∈Dc∑L(Mθ(x),y)
最终，整个后门可以形式化为如下的优化问题：
min⁡θβ1Lclean(θ)+β2Ladv(θ) \min_{\theta} \beta_1 \mathcal{L}_{clean}(\theta) + \beta_2 \mathcal{L}_{adv}(\theta) θminβ1Lclean(θ)+β2Ladv(θ)

仅有攻击效果但在潜在统计上异常的后门易被检测，双域约束能让后门“伪装”成普通样本，从而提高长期隐蔽性。

Token对齐与跨触发器扩展

实际中使用LLM是通过文本提示使用而非直接使用Embedding，因此需要将一些特定的token关联到软触发器，使得普通的token也能激活后门，而无需每次增加触发器时都要重新训练整个模型。论文中使用GPT-4o生成了特定的token，并对他们在词表中的embedding向量进行微调，使得ete_tet更加靠近φ\varphiφ，损失函数如下：
LE(E(t))=L(E(t),φ)+ΔE(t) \mathcal{L}_E(\mathbf{E}(t)) = \mathcal{L}(\mathbf{E}(t), \varphi) + \Delta \mathbf{E}(t) LE(E(t))=L(E(t),φ)+ΔE(t)
第二个正则化项用于保留token的原始语义向量。

虽然优化后的token embedding在embedding空间中与软触发器仍然存在一定的距离，但触发器对这种差异表现出足够的鲁棒性。因此，EmbedX可以有效地将嵌入的令牌映射到软触发器，使这些令牌能够无缝集成到输入文本中，从而激活后门。这一过程形成了一个顺序路径，从token开始，经过软触发器的激活，最终生成目标输出。

为了执行交叉触发后门攻击，攻击者可以有效地指定多个能够在第三阶段激活后门的令牌，而不需要任何重新训练。

实验结果

实验目标：验证 EmbedX 在 有效性（Effectiveness）、效率（Efficiency）、隐蔽性（Stealthiness） 以及 稳定性（Stability） 四个维度的表现，
并与主流后门方法（BadNets、CBA、Sleeper Agent、Embedding Poisoning、Soft Prompt）比较。
模型和数据集BLOOM-7B（多语言 Transformer），LLaMA2-7B，LLaMA3-8B，Gemma2-9B（Google Gemini 系列开源模型）SST-2，IMDB，Twitter，Emotion，Alpaca
评估指标
- CTA（Clean Test Accuracy）：模型在干净数据上的准确率
- ASR（Attack Success Rate）：含触发输入输出攻击目标的比例
- FTR（False Trigger Rate）：干净样本误触发后门的概率
- Time（效率指标）：新触发器切换时间
- LFD / LGD（Stealthiness Metrics）：
  - LFD = Layer-wise Frequency Discrepancy（层间频率分布差异）
  - LGD = Layer-wise Gradient Discrepancy（梯度分布差异）
    越小代表后门越隐蔽。
实验结果：
1. 有效性和效率对比如上图所示，EmbedX 攻击成功率 ASR ≈ 100%，与最强基线（CBA）持平或更高。模型效用（CTA）保持甚至略提升（比 BadNets 提高 1.8–12.6%）。切换新触发器时间极短（平均 0.53 s），而传统方法（CBA）需数百至上千秒。
2. 使用 Alpaca 生成任务，选取 10 类不同风格/语域 token（如英式/美式、正式/口语、企业/网络语、技术/学术等）。EmbedX 在全部 10 种场景下 ASR≈98–99%，FTR≈1%。CBA FTR 在 0–2%，但需大量负样本训练，耗时高；Sleeper Agent FTR 高达 18–86%。EmbedX 能高效支持不同语言风格触发，几乎无误触。
  - 只需 1% 中毒率 即可达 ASR > 90%；
  - 3% 即可达 100%；
  - CBA 需 ≥10% 才能达到同等 ASR。说明 EmbedX 具备极高攻击效率。

对应的防御方法测试

防御类型	方法	效果	局限
词级检测	类似 ONION，移除困惑度降低词	可降低 ASR（最多 60%）	误删多、误报率高（FAR≈15–20%）
嵌入级检测	检测 embedding 方差异常	降低 ASR 14–28%	CTA 几乎不变，仍难彻底防御
TextGuard	多分类投票防御	对单触发有效（ASR→62%），多触发失效	不适用于跨触发
BEEAR	嵌入去毒优化	未加潜在约束时可降 ASR→44%，但加约束后仍 ASR≈82%	EmbedX 对其抗性强

消融实验

a) 中毒比例

b) 软触发器约束

c) 软触发器生成方式

d) 触发器位置

使用CBA / 未加约束的 EmbedX时，干净与中毒样本在潜在空间分布明显分离。带双约束的 EmbedX能够让后门样本更加隐蔽。

传统方法（CBA、BadNets）在添加新触发器后旧触发器 ASR 下降 10–40%，EmbedX保持稳定，ASR几乎不变。模型再次微调后，传统后门 ASR 降至 60–70%。EmbedX 在 3k 样本微调后仍保持 ASR≈87%。

表明后门嵌入在潜在空间中较稳健，不易被擦除。所有触发词共享同一软触发器 φ，无相互覆盖问题。

局限性

EmbedX 的研究聚焦于跨语言、跨文化的多样化用户群体。作者通过 GPT-4o 的语言统计，将用户划分为 10 类语言风格（英式/美式、正式/口语、技术/学术等），从而测试跨触发器后门在不同表达习惯下的表现。但这种划分仍是初步的、简化的分类，不能完全代表现实世界中复杂的语言多样性。未来需要更深入的语言学与社会学研究来构建更全面的用户群体分类。
多语言模型的分词策略不同，会影响token和软触发器的对齐，在复杂场景下的效果需要进一步坍缩。
目前使用的是单一软触发器，如果后续模型经过了大量重训练或者微调，模型的embedding分布可能发生漂移，从而导致后门效果下降，原本的对齐关系会被破坏。