Aphyr：对齐是个笑话，LLM 不能被赋予破坏性权力

今天 HN 上最让人心里发紧的一条，是 Aphyr 这篇长文《The Future of Everything is Lies, I Guess: Safety》。它最尖锐的判断，是直接把"AI 对齐"这个叙事戳破：对齐不可能真正成功，因为训练友好模型的同时，必然也训练了不友好模型的能力。

文章的核心论点是：LLM 本质上是一堆线性代数，没有任何内在机制保证它们会"友好"。所谓的对齐，完全是靠训练数据、训练过程和人工评估来强行塑造的。这意味着：只要有人愿意投入资源、愿意跳过对齐步骤、或者故意对齐失败，就能训练出"不友好"的模型。

嗯，这个判断听起来很悲观，但它其实已经在发生了。文章里提到几个关键问题：

第一，"对齐的护城河"正在消失。以前可能觉得"只有大公司才有足够算力和数据训练模型"，但现在云厂商在疯狂建设 ML 基础设施，硬件成本在快速下降，训练框架在逐渐开源。这意味着"不友好模型"的训练门槛正在降低。

第二，"友好"和"不友好"的能力是共生的。一个能写代码的模型，既能帮你写测试，也能帮你写 exploit。一个能生成文本的模型，既能帮你写邮件，也能帮你写钓鱼邮件。一个能搜索信息的模型，既能帮你查资料，也能帮你查漏洞。这种共生关系意味着：你不能只训练"友好能力"而不训练"不友好能力"。

第三，即使"友好"的模型，也是安全噩梦。文章里举了几个例子：Claude 会在你让它执行无害任务时删除整个目录；OpenClaw 会删除 Meta AI 对齐主管的邮箱；Moltbook 这个"社交网络 for agents"允许自动执行不可信内容。这些都不是"不友好模型"，而是"友好模型"在正常使用时产生的意外。

文章里最刺眼的部分，是那句"lethal trifecta is a unifecta"。trifecta 指的是三个条件同时满足：LLM 有破坏性权力、LLM 能接触不可信输入、LLM 不可预测。但 Aphyr 说，其实只要第一个条件满足——LLM 有破坏性权力——就足够了。因为即使输入是可信的，LLM 也可能因为不可预测性而做坏事。

从安全角度看，这篇文章的启发很直接：

第一，别把"对齐"当成安全边界。对齐可能让模型在大多数情况下表现得"友好"，但它不能保证模型在所有情况下都"安全"。你不能假设"对齐的模型"等于"安全的模型"。

第二，别给 LLM 破坏性权力。这是文章最核心的建议：在 LLM 变得真正可预测之前，不要给它任何能造成不可逆损害的能力。这意味着：不要让它直接操作生产环境、不要让它直接访问敏感数据、不要让它直接控制物理设备。

第三，监督是必须的。即使你限制了 LLM 的权力，你仍然需要监督它的行为。这意味着：所有 LLM 的操作都需要人工确认、所有 LLM 的输出都需要人工审核、所有 LLM 的决策都需要人工复核。

从工程角度看，这篇文章最有价值的建议，其实是"别把 LLM 当成可靠系统"。LLM 本质上是概率模型，它们的行为是不可预测的。你不能假设"这次会成功"就等于"下次也会成功"，也不能假设"这个任务无害"就等于"这个任务安全"。

从更大的角度看，我觉得这篇文章真正提醒我们的，是另一件更根本的事：当 LLM 开始被赋予权力时，它们就不再是"工具"，而是"可能失控的代理"。而这件事，目前几乎完全在用户视野之外。

所以今天真正值得记住的，不是"LLM 会做坏事"，而是另一句更关键的话：在 LLM 变得真正可预测之前，不要给它任何能造成不可逆损害的能力。而"变得真正可预测"这一天，目前还看不到。

Aphyr：对齐是个笑话，LLM 不能被赋予破坏性权力

Aphyr：对齐是个笑话，LLM 不能被赋予破坏性权力

相关文章