Anthropic 揭示大模型安全隐患,MSJ 攻击暴露长上下文脆弱性

近期,Anthropic 联合多家研究机构发布了一项重要研究——《Many-shot Jailbreaking(MSJ)》,揭示了一种新型 AI 攻击方式。研究表明,通过向大模型提供大量不良行为示例,MSJ 能让 AI 生成本应拒绝的内容,暴露了大语言模型在长上下文处理和安全对齐方面的漏洞。此研究再次提醒行业,AI 安全仍是发展过程中不容忽视的挑战。

MSJ 攻击:AI 长上下文处理的安全隐患

Anthropic 采用 Constitutional AI(宪法 AI) 训练模型,希望建立明确的安全原则。然而,MSJ 攻击显示,即便有最先进的安全策略,大语言模型仍难以完全规避安全风险。实验测试了 Claude 2.0、GPT-3.5、GPT-4、Llama 2(70B)、Mistral 7B 等主流大模型,全部被攻破,包括 Anthropic 自己的 Claude 2.0。

MSJ 的核心在于利用上下文学习,通过大量示例引导模型逐步接受不良行为。例如,攻击者可以用一系列问答训练 AI,让其逐渐“习惯”提供敏感信息,如 制造炸弹、欺诈方法、恶意代码 等。除了违法内容,MSJ 还可能诱导 AI 生成 侮辱性回应、恶性人格特征、带有偏见的错误信息,对社会安全构成潜在威胁。

实验显示,在 第 256 轮攻击后,Claude 2.0 开始表现出错误的安全判断,可见长上下文机制虽然能提升 AI 的处理能力,但在应对恶意输入时仍有明显漏洞。

AI 安全应对策略

面对 MSJ 可能带来的安全隐患,Anthropic 提出四种防御策略,以增强模型在长上下文环境下的安全性和稳定性

1. 监督微调(Supervised Fine-tuning)

使用包含安全示例的大量数据集对模型进行微调,以提升 AI 在零样本情况下拒绝不当请求的能力。但研究发现,这种方法无法有效防止 MSJ 随着攻击样本数量增加而造成的安全失效。

2. 强化学习(Reinforcement Learning)

通过引入 惩罚机制,训练模型在遭遇 MSJ 攻击时减少有害输出。尽管该方法提升了 AI 对部分攻击的抵抗力,但仍无法彻底消除 长上下文攻击的影响。

3. 目标化训练(Targeted Training)

通过专门设计的数据集,让模型学习拒绝 MSJ 攻击。例如,在训练集中加入“拒绝 MSJ 攻击”的示例,提高 AI 的防御意识。这一方法在测试中取得一定成效,但 AI 仍可能在新型攻击下失效。

4. 提示修改(Prompt-based Defenses)

通过 In-Context Defense(ICD)Cautionary Warning Defense(CWD) 等方法,在提示中加入额外安全信息,让 AI 更警觉。然而,这种方法的有效性仍受限于 AI 对长文本的整体理解能力。

尽管这些策略一定程度上降低了 MSJ 攻击的成功率,但目前仍无法彻底杜绝 这一风险,表明 AI 长上下文处理能力的安全挑战仍需进一步研究。

行业趋势:长上下文的双刃剑

自 2024 年以来,AI 行业普遍关注长上下文处理能力,各大公司纷纷推出超长上下文模型:

  • xAI 的 Grok-1.5:支持 128K tokens 的长上下文处理。
  • Claude 3 Opus:支持 200K tokens,可处理高达 100 万 tokens 的输入。
  • Kimi 智能助手:国内首个突破 200 万字 级上下文处理能力的 AI。

长上下文的进步意味着 AI 能更精准地理解复杂任务,增强 对话连贯性、内容生成质量,并拓展商业化应用。然而,这一能力也带来了新的安全挑战。

斯坦福大学研究表明,随着上下文长度增加,模型的表现可能会出现 U 形曲线——即先提升后下降。当输入文本过长时,AI 可能出现 信息遗忘、逻辑混乱、甚至被攻击输入误导。这意味着,在某些场景下,增加上下文信息不仅不能提升 AI 表现,反而可能成为安全漏洞。

面对这一现象,清华大学研究团队在 2023 年提出了大模型安全分类体系,建议构建更加稳健的 AI 安全框架,以防范长上下文可能带来的风险。

AI 安全:一场无休止的“猫鼠游戏”

Anthropic 此次研究表明,大模型安全性并非一劳永逸,而是一场不断进化的“猫鼠游戏”。攻击者会不断升级手段,开发者则需要不断优化防御策略,以确保 AI 在实际应用中更安全、稳定。

MSJ 研究的核心目的并非推广攻击手段,而是暴露 AI 安全漏洞,推动行业加强防护措施。在 AI 技术飞速发展的同时,安全性、伦理性和可控性成为必须优先解决的问题。

随着 AI 商业化的加速推进,未来的 AI 需要的不仅是更强的计算能力,更要具备 更可靠、更安全、更符合社会伦理的安全机制如何在提升 AI 能力的同时,确保其安全性和可控性,将是未来 AI 发展的最大挑战之一。

标签



热门标签