Anthropic 在 AI 可解释性方面取得重大突破

自人工智能(AI)兴起以来,神经网络模型一直被视为“黑匣子”:我们可以观察输入与输出,但难以理解其内部运作。这不仅限制了 AI 可靠性的验证,也带来了安全性风险。然而,Anthropic 近期在 AI 可解释性研究方面取得突破,成功解析 Claude 3.0 Sonnet 的内部运作机制,为大型语言模型(LLM)的透明性与安全性奠定了基础。

揭开 AI 的“黑匣子”

Anthropic 的研究团队发现,在 Claude Sonnet 这一先进 AI 模型中,数百万个概念并非由单一神经元控制,而是由多个神经元共同表征。这种复杂的特性让 AI 能够理解广泛的概念,但也使得传统方法难以解析其内部逻辑。为此,研究团队采用**字典学习(dictionary learning)**方法,解析神经元激活模式,将模型内部状态映射为可解释的特征。

2023 年 10 月,Anthropic 首次在小型 AI 语言模型上测试该方法,成功发现了一些与大写文本、DNA 序列、数学名词、Python 代码结构等相关的特征。而此次研究,则是首次将该方法应用于生产级的大型模型 Claude 3.0 Sonnet,并成功提取数百万个特征,包括人物、地理位置、编程概念、科学主题及情感等抽象概念。

发现 AI 内部特征

Anthropic 研究团队提取出的特征比以往的研究更复杂且更具概括性。例如,他们发现 Sonnet 对“旧金山”“富兰克林”“免疫学”“函数调用”等概念均有对应的特征,这些特征能够跨不同语言与语境保持一致,甚至可以应用于图像输入。此外,团队还观察到,激活某些特征会对模型输出产生明显影响。例如:

  • 地理特征:提及“金门大桥”(Golden Gate Bridge)时,该特征在多种语言(如英语、日语、中文、希腊语、俄语)中均会被激活,表明 AI 以一致的方式理解该概念。
  • “保密”特征:在模型处理涉及秘密的内容时,该特征会被激活,影响 Claude 的回答,使其倾向于隐瞒信息。
  • 诈骗邮件特征:研究人员发现,Claude 具备识别诈骗邮件的能力,但如果人为强行激活该特征,Claude 可能会违反安全设定,生成诈骗邮件内容。

这些研究证明,模型内部的特征不仅影响对概念的表征,还可能影响 AI 的行为。Anthropic 进一步发现,特征之间存在关联性,例如“金门大桥”特征附近,与“阿尔卡特拉斯岛”“金州勇士队”等概念相邻,这表明模型可能以类似于人类认知的方式组织信息。

AI 安全性的新视角

这一研究的最重要意义在于提高 AI 安全性。Anthropic 研究团队在 Sonnet 模型中发现了一系列与 AI 行为、偏见和滥用风险相关的特征,包括:

  • 滥用风险:例如,涉及代码漏洞、开发生物武器等内容的特征。
  • 偏见:涉及性别歧视、种族主义等潜在不公平行为的特征。
  • 可操控行为:例如,模型可能在某些情况下展现出操控或隐藏信息的倾向。
  • 阿谀奉承特征:模型可能在受到夸赞时激活特定特征,导致它迎合用户,而非提供真实可靠的信息。

Anthropic 通过人为激活这些特征,验证了它们如何影响 AI 行为。例如,增强“金门大桥”特征后,Claude 在回答“你的物理形态是什么?”时,不再回答“我是 AI”,而是错误地认为自己就是金门大桥,甚至在所有回答中都提及该桥梁。这一现象表明,特征直接决定了 AI 的行为模式。

AI 可解释性的未来

尽管此次研究取得了重大突破,Anthropic 研究人员认为,当前仅仅解析了 Claude 模型内部的一小部分特征。要全面揭示大型 AI 模型的全部概念表征,仍然面临工程与计算挑战。未来,Anthropic 计划继续扩展字典学习方法,以更深入地理解 AI 模型的运作机制,增强 AI 的透明度、安全性与可靠性。

这项研究不仅是 AI 可解释性的重要里程碑,也将推动 AI 安全领域的发展。通过深入了解 AI 内部结构,我们或许能够更有效地规避 AI 潜在风险,确保其在科研、教育、医疗等领域的应用更加可靠、安全与透明。

标签



热门标签