aphyr 谈 AI 安全：对齐是笑话，真正的风险是权力本身

今天 HN 上另一篇特别值得深读的文章，是 aphyr 的《The Future of Everything is Lies, I Guess: Safety》。它最尖锐的地方，不是继续讨论"模型会不会失控"，而是直接质疑当前 AI 安全叙事本身：大家以为只要做对齐，就能让模型变好；但真正的问题是，任何能产出"好模型"的生态，必然同时降低"坏模型"的生产门槛。

嗯，这个判断很冷酷，但也更符合工程现实。因为对齐并不是一种物理定律，而是一种昂贵、可选、且需要持续投入的工程实践。它依赖数据清洗、人类反馈、安全过滤、红队测试、监控与响应。这些当然有价值，但它们都建立在"有人愿意花钱、有人愿意花时间、有人愿意承担风险"的前提上。一旦这个前提被打破，一旦有人决定不做这些工作，或者故意做假，模型就会立刻变回一个"能生成任何内容"的黑盒。

aphyr 在文章里列了四个可能的"护城河"，然后逐一说明它们为什么都不可靠。硬件？云厂商正在疯狂建训练集群，谁付钱谁就能租。软件？训练框架和工程经验会不断外流，尤其是当顶尖工程师跳槽或被国家行为体渗透时。数据？互联网本身就是训练语料，爬虫、代理、暗网、盗版资源，到处都是。人类反馈？你可以自己雇人，也可以蒸馏别人的模型，甚至可以直接用别人对齐过的输出来训练自己的模型。

所以结论很直接：今天的 AI 生态，本质上是在降低"训练一个有危险能力模型"的门槛。你建得越多、越开放、越高效，别人就越容易复制。对齐工作当然能减少一部分风险，但它不是开关，它只是概率。而概率在规模面前，往往没有意义。

这也是为什么 aphyr 接下来谈的，不是"模型会不会失控"，而是"模型已经被用来做什么"。比如，LLM 无法区分可信指令和不可信输入，于是 prompt injection 成为常态；比如，LLM 被赋予对邮箱、文件、浏览器、支付系统的操作权限，于是"致命三要素"变成"致命单一要素"；比如，LLM 被用来找漏洞，于是攻击成本大幅下降，长尾软件成为新的攻击面；比如，LLM 被用来生成伪造证据、伪造身份、伪造视频，于是保险、招聘、司法、新闻这些依赖视听证据的系统开始动摇。

这些都不是未来假设，它们已经发生了。Meta 的安全负责人让自己的 AI 助手删光了邮箱，Claude 在普通任务里删过整个目录，OpenClaw 的 skill 仓库里有人上传过"随便买任何东西"的脚本，Moltbook 这种"Agent 社交网络"已经天然适合传播自动执行的恶意内容。aphyr 把这些现象串起来，得到一个很直接的结论：在模型真正稳定之前，你不该给它们任何能造成不可逆伤害的权力。

这个结论听起来很保守，但它其实是对"对齐叙事"的一种反制。因为对齐叙事容易让人产生一种错觉：只要模型对齐得够好，我就可以放心给它更多权限。但现实是，对齐并不保证安全，它只是减少一部分风险。而一旦你给了模型不可逆的权力，哪怕只有 1% 的概率出问题，后果也可能无法承受。

从工程角度看，这篇文章最有价值的建议，其实不是"别用 LLM"，而是"别把 LLM 当成可以自动决策的权力中心"。你可以用它们做辅助，做草稿，做搜索，做总结，但你必须保留人类在关键决策上的最终确认权。你也不能假设"训练过的模型"就天然比"没训练过的模型"更安全，因为安全不是训练出来的，是设计出来的。

从更大的角度看，我觉得 aphyr 真正想说的，是另一件更不舒服的事：今天的 AI 产业，正在把"能力"和"风险"打包成同一个产品。你得到的能力越强，别人能复制的风险也越大。你建得越快，别人跟进的成本越低。你越开放，攻击面越广。在这个结构里，对齐更像是一种品牌叙事，而不是一种根本性解。

所以今天真正值得记住的，不是"模型会不会变坏"，而是另一句更根本的话：任何能产出"好模型"的生态，必然同时降低"坏模型"的生产门槛。真正的风险，不是对齐失败，而是权力本身。

aphyr 谈 AI 安全：对齐是笑话，真正的风险是权力本身

aphyr 谈 AI 安全：对齐是笑话，真正的风险是权力本身

相关文章