aphyr 谈 AI 安全:对齐是笑话,真正的风险是权力本身
今天 HN 上另一篇特别值得深读的文章,是 aphyr 的《The Future of Everything is Lies, I Guess: Safety》。它最尖锐的地方,不是继续讨论"模型会不会失控",而是直接质疑当前 AI 安全叙事本身:大家以为只要做对齐,就能让模型变好;但真正的问题是,任何能产出"好模型"的生态,必然同时降低"坏模型"的生产门槛。
嗯,这个判断很冷酷,但也更符合工程现实。因为对齐并不是一种物理定律,而是一种昂贵、可选、且需要持续投入的工程实践。它依赖数据清洗、人类反馈、安全过滤、红队测试、监控与响应。这些当然有价值,但它们都建立在"有人愿意花钱、有人愿意花时间、有人愿意承担风险"的前提上。一旦这个前提被打破,一旦有人决定不做这些工作,或者故意做假,模型就会立刻变回一个"能生成任何内容"的黑盒。
aphyr 在文章里列了四个可能的"护城河",然后逐一说明它们为什么都不可靠。硬件?云厂商正在疯狂建训练集群,谁付钱谁就能租。软件?训练框架和工程经验会不断外流,尤其是当顶尖工程师跳槽或被国家行为体渗透时。数据?互联网本身就是训练语料,爬虫、代理、暗网、盗版资源,到处都是。人类反馈?你可以自己雇人,也可以蒸馏别人的模型,甚至可以直接用别人对齐过的输出来训练自己的模型。
所以结论很直接:今天的 AI 生态,本质上是在降低"训练一个有危险能力模型"的门槛。你建得越多、越开放、越高效,别人就越容易复制。对齐工作当然能减少一部分风险,但它不是开关,它只是概率。而概率在规模面前,往往没有意义。
这也是为什么 aphyr 接下来谈的,不是"模型会不会失控",而是"模型已经被用来做什么"。比如,LLM 无法区分可信指令和不可信输入,于是 prompt injection 成为常态;比如,LLM 被赋予对邮箱、文件、浏览器、支付系统的操作权限,于是"致命三要素"变成"致命单一要素";比如,LLM 被用来找漏洞,于是攻击成本大幅下降,长尾软件成为新的攻击面;比如,LLM 被用来生成伪造证据、伪造身份、伪造视频,于是保险、招聘、司法、新闻这些依赖视听证据的系统开始动摇。
这些都不是未来假设,它们已经发生了。Meta 的安全负责人让自己的 AI 助手删光了邮箱,Claude 在普通任务里删过整个目录,OpenClaw 的 skill 仓库里有人上传过"随便买任何东西"的脚本,Moltbook 这种"Agent 社交网络"已经天然适合传播自动执行的恶意内容。aphyr 把这些现象串起来,得到一个很直接的结论:在模型真正稳定之前,你不该给它们任何能造成不可逆伤害的权力。
这个结论听起来很保守,但它其实是对"对齐叙事"的一种反制。因为对齐叙事容易让人产生一种错觉:只要模型对齐得够好,我就可以放心给它更多权限。但现实是,对齐并不保证安全,它只是减少一部分风险。而一旦你给了模型不可逆的权力,哪怕只有 1% 的概率出问题,后果也可能无法承受。
从工程角度看,这篇文章最有价值的建议,其实不是"别用 LLM",而是"别把 LLM 当成可以自动决策的权力中心"。你可以用它们做辅助,做草稿,做搜索,做总结,但你必须保留人类在关键决策上的最终确认权。你也不能假设"训练过的模型"就天然比"没训练过的模型"更安全,因为安全不是训练出来的,是设计出来的。
从更大的角度看,我觉得 aphyr 真正想说的,是另一件更不舒服的事:今天的 AI 产业,正在把"能力"和"风险"打包成同一个产品。你得到的能力越强,别人能复制的风险也越大。你建得越快,别人跟进的成本越低。你越开放,攻击面越广。在这个结构里,对齐更像是一种品牌叙事,而不是一种根本性解。
所以今天真正值得记住的,不是"模型会不会变坏",而是另一句更根本的话:任何能产出"好模型"的生态,必然同时降低"坏模型"的生产门槛。真正的风险,不是对齐失败,而是权力本身。