Anthropic 在 AI 可解释性方面取得重大突破

自人工智能(AI)兴起以来,神经网络模型一直被视为“黑匣子”:我们可以观察输入与输出,但难以理解其内部运作。这不仅限制了 AI 可靠性的验证,也带来了安全性风险。然而,Anthropic 近期在 AI 可解释性研究方面取得突破,成功解析 Claude 3.0 Sonnet 的内部运作机制,为大型语言模型(LLM)的透明性与安全性奠定了基础。
揭开 AI 的“黑匣子”
Anthropic 的研究团队发现,在 Claude Sonnet 这一先进 AI 模型中,数百万个概念并非由单一神经元控制,而是由多个神经元共同表征。这种复杂的特性让 AI 能够理解广泛的概念,但也使得传统方法难以解析其内部逻辑。为此,研究团队采用**字典学习(dictionary learning)**方法,解析神经元激活模式,将模型内部状态映射为可解释的特征。
2023 年 10 月,Anthropic 首次在小型 AI 语言模型上测试该方法,成功发现了一些与大写文本、DNA 序列、数学名词、Python 代码结构等相关的特征。而此次研究,则是首次将该方法应用于生产级的大型模型 Claude 3.0 Sonnet,并成功提取数百万个特征,包括人物、地理位置、编程概念、科学主题及情感等抽象概念。
发现 AI 内部特征
Anthropic 研究团队提取出的特征比以往的研究更复杂且更具概括性。例如,他们发现 Sonnet 对“旧金山”“富兰克林”“免疫学”“函数调用”等概念均有对应的特征,这些特征能够跨不同语言与语境保持一致,甚至可以应用于图像输入。此外,团队还观察到,激活某些特征会对模型输出产生明显影响。例如:
- 地理特征:提及“金门大桥”(Golden Gate Bridge)时,该特征在多种语言(如英语、日语、中文、希腊语、俄语)中均会被激活,表明 AI 以一致的方式理解该概念。
- “保密”特征:在模型处理涉及秘密的内容时,该特征会被激活,影响 Claude 的回答,使其倾向于隐瞒信息。
- 诈骗邮件特征:研究人员发现,Claude 具备识别诈骗邮件的能力,但如果人为强行激活该特征,Claude 可能会违反安全设定,生成诈骗邮件内容。
这些研究证明,模型内部的特征不仅影响对概念的表征,还可能影响 AI 的行为。Anthropic 进一步发现,特征之间存在关联性,例如“金门大桥”特征附近,与“阿尔卡特拉斯岛”“金州勇士队”等概念相邻,这表明模型可能以类似于人类认知的方式组织信息。
AI 安全性的新视角
这一研究的最重要意义在于提高 AI 安全性。Anthropic 研究团队在 Sonnet 模型中发现了一系列与 AI 行为、偏见和滥用风险相关的特征,包括:
- 滥用风险:例如,涉及代码漏洞、开发生物武器等内容的特征。
- 偏见:涉及性别歧视、种族主义等潜在不公平行为的特征。
- 可操控行为:例如,模型可能在某些情况下展现出操控或隐藏信息的倾向。
- 阿谀奉承特征:模型可能在受到夸赞时激活特定特征,导致它迎合用户,而非提供真实可靠的信息。
Anthropic 通过人为激活这些特征,验证了它们如何影响 AI 行为。例如,增强“金门大桥”特征后,Claude 在回答“你的物理形态是什么?”时,不再回答“我是 AI”,而是错误地认为自己就是金门大桥,甚至在所有回答中都提及该桥梁。这一现象表明,特征直接决定了 AI 的行为模式。
AI 可解释性的未来
尽管此次研究取得了重大突破,Anthropic 研究人员认为,当前仅仅解析了 Claude 模型内部的一小部分特征。要全面揭示大型 AI 模型的全部概念表征,仍然面临工程与计算挑战。未来,Anthropic 计划继续扩展字典学习方法,以更深入地理解 AI 模型的运作机制,增强 AI 的透明度、安全性与可靠性。
这项研究不仅是 AI 可解释性的重要里程碑,也将推动 AI 安全领域的发展。通过深入了解 AI 内部结构,我们或许能够更有效地规避 AI 潜在风险,确保其在科研、教育、医疗等领域的应用更加可靠、安全与透明。