近日,yl6809永利集团2023级硕士生闫楠作为第一作者撰写的论文被第34届USENIX安全研讨会(The 34th USENIX Security Symposium 2025)录用。
论文题目为“EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models”(《EmbedX:基于嵌入的跨触发器大语言模型后门攻击》),指导老师为yl6809永利集团李雨晴副研究员(通讯作者)、陈晶教授(通讯作者)、何琨副教授,与华中科技大学王雄副教授、香港科技大学李波教授合作完成。
近年来,大型语言模型(LLMs)如GPT-4、LLaMA等在各类自然语言处理任务中表现卓越,广泛应用于问答、翻译、文本生成等场景。然而,研究发现,LLMs 同样面临严重的安全风险,特别是后门攻击的威胁:攻击者可通过在训练过程中植入特定触发词,使模型在接收到特定输入时产生恶意或错误响应。现有后门方法使用的离散触发词不支持自动优化,难以针对特定任务找到最优的触发器。此外,后门攻击多基于单一触发词,难以适应多样化用户的语言习惯,且在跨文化、跨语言环境下攻击效果显著下降,需要重新训练模型并嵌入后门,面临效率低、隐蔽性差等挑战。

图1 EmbedX框架概览
为应对现有后门攻击在跨语言、多触发词场景下的局限性,作者提出了EmbedX,一种基于嵌入空间的跨触发器后门攻击框架,如图1所示。该方法不依赖于离散的触发词,而是通过优化连续的嵌入向量构造“软触发器”,建立软触发器与目标输出的联系,从而能够根据特定的后门场景动态细化和定制触发器。同时,将多个具有不同语言风格的词汇作为令牌导火索,在嵌入语义上与软触发器对齐,实现不同令牌触发词可以在嵌入层映射为统一的软触发器,以达到触发同一后门响应的目的。在切换触发器时,只需将特定令牌的嵌入语义对齐到预定义的嵌入向量即可激活后门,无需在跨触发器后门攻击中重新训练模型。此外,为提升攻击的隐蔽性,EmbedX引入频率域与梯度空间的双重约束,使中毒样本在模型潜在空间中更加接近正常样本。实验在多个主流开源大语言模型(如LLaMA、BLOOM、Gemma等)及六种语言环境下开展,覆盖情感分析、仇恨言论检测、指令生成等任务,结果显示EmbedX在攻击成功率、时间效率与隐蔽性方面全面优于现有方法:无需重复训练即可实现快速多触发器迁移,平均仅需约0.53秒,且攻击成功率接近100%,模型精度提升3.2%。该研究不仅揭示了现有防御机制在语义层面可能存在的盲区,也为未来更加高效、隐蔽的大语言模型后门检测技术奠定了理论基础。
据悉,本届USENIX Security将于2025年8月13至15日在西雅图召开,USENIX Security于1990年首次举办,已有三十多年历史,与IEEE S&P、ACM CCS、NDSS并称为信息安全领域国际四大顶级学术会议,也是中国计算机学会(CCF)推荐的A类会议,被录用的稿件反映了网络安全领域国际最前沿的研究水平。