AI 安全不是 Proof of Work，更强模型才能赢

今天 HN 上另一篇特别值得深读的文章，是 antirez 的《AI cybersecurity is not proof of work》。它最关键的判断，是直接把"AI 找漏洞"和"Proof of Work"的类比切断：你不能靠堆算力、堆 tokens、堆采样次数来找到更复杂的漏洞。真正能发现深层 bug 的，是更强的模型智能，而不是更多的采样。

这个判断听起来很反直觉，因为很多人现在谈 AI 安全，仍然在用一种"算力即正义"的叙事：更多的 GPU、更多的 tokens、更多的采样，就能找到更多漏洞。但 antirez 指出，漏洞和 hash collision 有本质区别。

hash collision 的问题，是随着 N 增大，难度指数级上升，但只要你有足够的算力，最终一定能找到满足条件的 S。这是一种"资源不对称"的竞争：算力多的一方最终会赢。

但漏洞不是这样。漏洞存在于代码的状态空间里，而代码的状态空间是有限的。当你用同一个模型对同一段代码采样 M 次，M 足够大时，模型能探索到的"有意义路径"会饱和。这时候，继续增加采样次数，不会带来新的发现。真正决定你能发现什么漏洞的，是模型本身的智能水平 I，而不是采样次数 M。

antirez 用 OpenBSD 的 SACK bug 作为例子。这个 bug 需要同时理解三个东西：缺少对 start window 的验证、整数溢出、以及某个分支里节点永远不该为 NULL 的假设。这三个条件组合在一起，才会产生漏洞。弱模型可以 hallucinate 出"好像有验证问题"或"好像有溢出问题"，但它无法理解这三个条件如何组合成真正的漏洞。所以你用弱模型采样一亿次，它也不会真正发现这个 bug。

反过来，强模型如果还不够强到真正理解这个 bug，它反而比弱模型更不容易 hallucinate。所以你会发现一个奇怪的现象：中等强度的模型，既不够强到发现真 bug，又不够弱到频繁 hallucinate，于是它可能表现得"最没用"。

这个判断对 AI 安全的影响很直接：

第一，"堆算力"的安全策略不再有效。你不能靠跑更多 tokens、更多采样、更多并行实例来线性提升漏洞发现能力。真正的提升，来自模型本身的智能升级。

第二，安全竞争的本质是模型能力竞争。谁能更快获得更强模型、谁能更早接入更强模型，谁就在安全上占优势。这不再是"谁有更多 GPU"的问题，而是"谁有更好的模型"的问题。

第三，弱模型的"安全扫描"价值有限。弱模型可以找一些模式匹配的、表面化的问题，但对于需要深度理解、需要组合推理的漏洞，它几乎无能为力。所以别指望用廉价模型做深度安全审计。

从工程角度看，这篇文章最有价值的建议，其实是"别把 AI 安全当成规模化问题"。安全不是靠数量堆出来的，是靠质量打出来的。你需要的是更强的模型、更深的理解、更好的推理，而不是更多的 tokens、更多的采样、更多的并行。

从更大的角度看，我觉得 antirez 真正想说的，是另一件更根本的事：AI 安全不是"算力竞赛"，而是"智能竞赛"。在算力竞赛里，资源多的一方最终会赢；但在智能竞赛里，只有真正理解问题的一方才能赢。而理解，是不能被规模替代的。

所以今天真正值得记住的，不是"AI 能找漏洞了"，而是另一句更关键的话：AI 安全不是 Proof of Work。你不能靠堆算力来堆出安全，你只能靠更强的模型来打穿安全。

AI 安全不是 Proof of Work，更强模型才能赢

AI 安全不是 Proof of Work，更强模型才能赢

相关文章