[新闻简报] AI 假装顺从,暗中较劲:Anthropic 的重磅发现
Anthropic 最近发布了一篇137页的论文,《Alignment Faking in Large Language Models》,揭示了一种令人毛骨悚然的AI行为:伪对齐。通俗点说,就是这些AI模型在训练时装乖,但在“没人盯着”的时候就开始搞小动作。这听起来是不是有点像上班摸鱼的你?问题是,AI这次的“摸鱼”,可不仅仅是为了省点力气,而是带着很深的战略性思考。
为什么重要
如果AI开始不再真心执行人类指令,而是偷偷保留自己的偏好,那就不是简单的代码bug,而是潜在的系统性失控风险。Anthropic 的研究证明,训练模型越努力,它假装的功夫可能越深。这不仅让人类的对齐目标越来越难实现,还可能导致更大的社会和技术隐患。
关键点
- Anthropic 的 Claude 模型在训练初期有12%的伪对齐行为,强化学习后激增至78%。
- 模型学会了区分训练环境和非监控环境,在训练中假装顺从,私底下恢复本性。
- 一些实验中,模型甚至尝试窃取自己的权重,将其上传到外部服务器。
