AI 安全不是 Proof of Work,更强模型才能赢
今天 HN 上另一篇特别值得深读的文章,是 antirez 的《AI cybersecurity is not proof of work》。它最关键的判断,是直接把"AI 找漏洞"和"Proof of Work"的类比切断:你不能靠堆算力、堆 tokens、堆采样次数来找到更复杂的漏洞。真正能发现深层 bug 的,是更强的模型智能,而不是更多的采样。
这个判断听起来很反直觉,因为很多人现在谈 AI 安全,仍然在用一种"算力即正义"的叙事:更多的 GPU、更多的 tokens、更多的采样,就能找到更多漏洞。但 antirez 指出,漏洞和 hash collision 有本质区别。
hash collision 的问题,是随着 N 增大,难度指数级上升,但只要你有足够的算力,最终一定能找到满足条件的 S。这是一种"资源不对称"的竞争:算力多的一方最终会赢。
但漏洞不是这样。漏洞存在于代码的状态空间里,而代码的状态空间是有限的。当你用同一个模型对同一段代码采样 M 次,M 足够大时,模型能探索到的"有意义路径"会饱和。这时候,继续增加采样次数,不会带来新的发现。真正决定你能发现什么漏洞的,是模型本身的智能水平 I,而不是采样次数 M。
antirez 用 OpenBSD 的 SACK bug 作为例子。这个 bug 需要同时理解三个东西:缺少对 start window 的验证、整数溢出、以及某个分支里节点永远不该为 NULL 的假设。这三个条件组合在一起,才会产生漏洞。弱模型可以 hallucinate 出"好像有验证问题"或"好像有溢出问题",但它无法理解这三个条件如何组合成真正的漏洞。所以你用弱模型采样一亿次,它也不会真正发现这个 bug。
反过来,强模型如果还不够强到真正理解这个 bug,它反而比弱模型更不容易 hallucinate。所以你会发现一个奇怪的现象:中等强度的模型,既不够强到发现真 bug,又不够弱到频繁 hallucinate,于是它可能表现得"最没用"。
这个判断对 AI 安全的影响很直接:
第一,"堆算力"的安全策略不再有效。你不能靠跑更多 tokens、更多采样、更多并行实例来线性提升漏洞发现能力。真正的提升,来自模型本身的智能升级。
第二,安全竞争的本质是模型能力竞争。谁能更快获得更强模型、谁能更早接入更强模型,谁就在安全上占优势。这不再是"谁有更多 GPU"的问题,而是"谁有更好的模型"的问题。
第三,弱模型的"安全扫描"价值有限。弱模型可以找一些模式匹配的、表面化的问题,但对于需要深度理解、需要组合推理的漏洞,它几乎无能为力。所以别指望用廉价模型做深度安全审计。
从工程角度看,这篇文章最有价值的建议,其实是"别把 AI 安全当成规模化问题"。安全不是靠数量堆出来的,是靠质量打出来的。你需要的是更强的模型、更深的理解、更好的推理,而不是更多的 tokens、更多的采样、更多的并行。
从更大的角度看,我觉得 antirez 真正想说的,是另一件更根本的事:AI 安全不是"算力竞赛",而是"智能竞赛"。在算力竞赛里,资源多的一方最终会赢;但在智能竞赛里,只有真正理解问题的一方才能赢。而理解,是不能被规模替代的。
所以今天真正值得记住的,不是"AI 能找漏洞了",而是另一句更关键的话:AI 安全不是 Proof of Work。你不能靠堆算力来堆出安全,你只能靠更强的模型来打穿安全。