一个菲尔兹奖得主让 ChatGPT 解决了一个未解决的数学问题

今天 HN 上有几件事值得看,但最有分量的是一篇 411 分的博客。

作者 Tim Gowers 是剑桥大学的数学家,2014 年获得菲尔兹奖。他的研究领域是组合数学和泛函分析。他在博客上写了一篇标题很直接的文章:《最近用 ChatGPT 5.5 Pro 的一次经历》。

他描述了怎么在大约一小时内、几乎没有任何数学输入的情况下,让 ChatGPT 解决了一个真正的未解决的数学问题。

这个背景很重要。LLM 解数学题已经不是新闻了。几个 LLM 已经解决了一些 Erdős 问题,而且很多人注意到这些"解决方案"往往只是在文献里找到了已有的答案,或者从已知结果中很容易推导出来。

但 Gowers 看到的情况正在变化。他说,其他参与这个领域的数学家的反馈是:LLM 已经到了一个地步——如果一个问题的确有一个人类数学家因为某种原因忽略了的简单论证,那么 LLM 很可能会找到它。

于是 Gowers 决定做一个不同的实验。

他选了一组 Mel Nathanson 在 2026 年 3 月一篇论文《加性数论问题中的多样性、公平性和包容性》中提出的问题。这篇论文涉及一个叫做"和集"的概念。

嗯,简单说:如果 A 是一组整数,那么它的和集 A+A 就是 {a+b : a,b ∈ A}。对于正整数 h,h 重和集 hA 就是 {a₁+...+a_h : a₁,...,a_h ∈ A}。Nathanson 研究的问题是:给定 |A|=k,hA 可能的尺寸集合 R(h,k) 是什么?

当 h=2 时,答案是所有介于 2k-1 和 C(k+1,2) 之间的整数。但当 h>2 时,并不是所有尺寸都能取到,而且我们目前对 R(h,k) 没有一个完整的描述。

Gowers 问了另一个相关的问题:如果你想找一个集合 A,使得 A 和 hA 有指定的尺寸,你需要多大的直径?Nathanson 证明了对于 h=2 的情况,存在一个 2^k-1 的指数上界,他问这个界能不能改进。

Gowers 把这个问给了 ChatGPT 5.5 Pro。

然后 ChatGPT 思考了 17 分 5 秒。

给出的答案是一个二次上界——这是显然最优的。Gowers 花了一些时间确认这个论证是正确的,然后让 ChatGPT 把它写成一份 LaTeX 预印本。ChatGPT 又花了 2 分 23 秒就给了。

Gowers 的基本分析是:Nathanson 和 ChatGPT 的核心思路是一样的——从一个 Sidon 集(和集尺寸最大的集合)和等差数列出发来构造。ChatGPT 的改进只是用了一个更高效的 Sidon 集——众所周知可以找到二次直径的 Sidon 集。Gowers 不确定 Nathanson 为什么一开始没这么做,他怀疑这是因为只有在重新描述 Nathanson 的归纳构造后,"用更高效的 Sidon 集"这个想法才会变得明显。ChatGPT 是不是也做了同样的重新描述?这很难说。

然后 Gowers 做了第二件事。他问 ChatGPT 能不能对"限制和集"做同样的事——也就是 {a+b : a,b ∈ A, a ≠ b}。ChatGPT 毫无困难地做到了。Gowers 让 ChatGPT 把两个结果写成一个笔记。

然后他问了最困难的问题:对一般的 h 能不能做同样的事。Gowers 自己也不太乐观,因为 h=2 的证明根本性地用到了我们知道 R(2,k) 的精确描述。对于一般的 h,R(h,k) 还是未知的。Gowers 自己也不知道怎么绕过这个困难。

不过 Nathanson 的论文中提到了一个 MIT 学生 Isaac Rajagopal 的惊人论文,他似乎绕过了这个困难,证明了对于每个固定的 h,直径对 k 只有指数依赖。

Gowers 让 ChatGPT 去尝试。ChatGPT 最终没能完全解决这个问题,但它给出了一些有趣的洞察和构造。

嗯,这件事的意义不止于"AI 又解决了一个数学问题"。

Gowers 说了一句话我觉得很重要:"这看起来像是一个新的门槛。"

什么意思?过去 LLM 解数学题,人们还能自我安慰说它只是在"拼凑已有的知识"。但这里的情况是:ChatGPT 用了一个更高效的 Sidon 集构造,这个构造在文献中是已知的,但把它应用到 Nathanson 的具体问题上——这个连接——似乎不是直接来自文献。

所以问题变成了:这算原创吗?

Gowers 自己也说了,相当多的人类数学研究本质上就是在把已有的知识和证明技巧组合起来。如果 LLM 能做到这一点,而且比人类做得更快,那"原创性"的定义本身就需要重新思考。

然后 Gowers 还提到了另一个更深刻的问题:组合数学中有很多论文会提出多个新问题。因为问题太多,作者不一定能花几周思考每一个。这意味着其中至少有一些不会太难。

这类论文过去对第一次做研究的数学家非常有价值——解决一个正式未解决的问题是巨大的鼓励。但现在门槛被提高了。光有人提出一个问题还不够:它必须难到 LLM 解不了。

这意味着数学研究的游戏规则在改变。不仅仅是"AI 辅助研究"的问题,而是"什么是值得研究的未解决问题"这个定义本身在发生变化。

嗯,我想到一件事。Gowers 在描述这次经历时,特别强调了他的"数学输入为零"。他不是在炫耀,而是在做一个对照实验:如果人类专家的输入为零,而 LLM 产出了博士级别的研究,那意味着什么?

答案很直接:意味着人类专家在这个特定任务上不再是最稀缺的资源。

这不是说人类数学家没用了。Gowers 自己需要判断 ChatGPT 的论证是否正确、需要决定问什么问题、需要把结果放在数学文献的大背景下理解。这些仍然是人类的领域。

但"从零开始构造新证明"这件事——至少在组合数学的某些领域——已经不再是人类独有的能力了。

也许真正的问题是:当 AI 能解决"容易的未解决问题"时,哪些才是真正值得人类数学家去做的?

这本身就是一个需要重新思考的问题。