ACL 2026将于2026年7月2日至7日在美国加利福尼亚州圣迭戈举行。ACL(Annual Meeting of the Association for Computational Linguistics)是国际计算语言学协会年会,也是计算语言学、自然语言处理领域最具影响力的国际顶级学术会议之一,CCF A类会议,会议每年举办一次,长期受到全球学术界与工业界高度关注。我院硕士研究生韩朝阳同学作为第一作者的论文《Experience-Driven Multi-Agent Optimization for Black-Box Jailbreak Attacks on Large Language Models》被接收(类型:Findings),李平教授为通讯作者。
该论文聚焦大语言模型安全对齐中的“越狱攻击”问题,主要研究在黑盒设置下如何更高效地发现模型潜在安全脆弱性。论文提出了一种经验驱动的多智能体优化框架(EMJO),通过攻击者、分析者和裁判者三个智能体之间的协同迭代,构建“生成—评估—修正”的闭环优化过程;同时引入动态经验库,积累高质量成功样例和可复用策略,以提升攻击优化的效率、迁移性与稳定性。实验结果表明,EMJO 在多个开源和闭源大语言模型上均表现出较强优势,相较现有黑盒越狱基线方法,EMJO 的攻击成功率最高可提升 11 个百分点,平均查询开销最高可降低 7.9 倍,体现出较好的有效性与查询效率。论文进一步分析显示,该方法在跨模型迁移、失败恢复和迭代优化等方面也具有较强鲁棒性。
该成果是我院在人工智能与大语言模型安全研究方向上的又一重要进展,体现了学院在自然语言处理领域持续增强的科研创新能力。论文被 ACL 2026录用,也表明我院相关研究成果正不断获得国际高水平学术平台的认可。

EMOJ模型图