AI如何改变数学研究的本质
创始人
2026-03-11 03:42:23
0

现代AI编码工具已经彻底改变了软件工程,开发者现在使用AI助手编写大部分代码,涉及各种应用领域。作为研究机器学习理论的科学家,我们已经看到基础科学方法论发生了类似的转变,特别是在数学性质的研究中。

更准确地说,AI工具现在能够仅从提供高层证明草图的提示中开发和编写严格的数学证明。这些证明用详述数学论证的长期存在的"语言"编写,就像代码用Python等正式编程语言编写一样。AI似乎已经熟练掌握了这两种语言及其底层逻辑。

去年夏天,我们在三周内使用智能体AI工具撰写了一篇数学论文,这通常需要几个月时间。这篇50页的论文描述并解决了一个基于图论和机器学习概念的优化问题。我们给AI的典型提示是:"想象一个由线性最小二乘学习智能体组成的有向无环网络,每个智能体共享一个通用数据集,但每个智能体只能看到特征的不同子集。"

定理陈述和证明的典型提示是:"我们相信,如果网络包含一个足够长的智能体链,其特征覆盖整个数据集,链中的某个智能体应该快速收敛到全局最优线性模型。证明应该利用错误在链中单调递减这一事实,这迫使长序列智能体在彼此特征方面具有多重准确性。"虽然这些表述对普通读者来说可能很晦涩,但它们都有精确的标准数学解释,AI通过训练知道这些,并将非正式直觉转化为精确定义和陈述。这种转化并不完美,但产生了一个很好的初稿,然后可以进行修正和完善。

需要明确的是,对于这篇特定论文,我们已经知道心中证明的大致轮廓。AI所做的是自动化并大大加速填写缺失细节并以正式精确性编写它们的过程。但最近,我们撰写的论文在没有AI帮助的情况下会有本质不同,质量更好——AI贡献了对最终结果至关重要的关键想法。

重要的是要注意AI工具发展很快,这使得未来难以预测。虽然它们的使用显示出产生更快更好研究的潜力,但也为那些关心科学未来及其与更广阔世界关系的人产生了严重问题。AI正在改变研究规范和工作流程,这引发了如何培训未来几代科学家的担忧。

具体来说,当AI自动化许多历史上用于培训年轻研究人员的步骤时,如何培养科学研究中的直觉和"良好品味"?同行评议是另一个挑战:AI生成的研究论文大规模快速产出,突显了同行评议和现代出版结构的局限性,也加剧了科学成功激励机制已经出现的挑战。虽然我们不声称对这些担忧有答案或解决方案,但我们正在亲身经历它们,并将逐一讨论。

与AI协作的新范式

从我们夏季研究项目中得出的主要结论之一是,与基于证明的AI工具合作类似于与一个聪明、受过广泛教育但偶尔出错的同事合作。人们可以像对人类合作者一样向AI智能体口头描述数学论证,智能体可以将该草图转化为正式书面的引理或定理及其证明。

越来越多的AI智能体可以在没有草图的情况下自己找到证明,特别是当这些证明在某些数学领域是"标准"的时候。这比听起来更有用:许多类型的论证在某个领域是"标准"的,但通常是人类作者不是专家的领域。AI工具的一个优势是它们精通数学和其他科学学科的大量领域。

例如,在我们的案例中,在逐步证明我们提供草图的主要结果过程中,AI自发地证明了一个我们不知道的简单但有用的引理,这有意义地简化了我们心中的论证。这种创造力的含义令人兴奋,特别是在降低发现门槛方面:没有多样化合作者社区的科学家也可以以之前不可能的方式参与前沿研究。

然而,使用这些工具仍需要谨慎和专业知识。它们生成的证明大约只有四分之三的时间是正确的。但当它们错误时,如果你能识别错误,通常可以迭代到正确性,然后沿着有希望的路径继续。

如果错误仍未纠正,试图继续往往会走入死胡同。25%的错误率足够低,使工具对专家极其有用,但也足够高,在不小心或不加区分使用时,有时会退化为"AI研究垃圾"——看起来精美但最终有缺陷或无趣的工作。毕竟,模型仍然不知道什么是"有趣"或"有用"的。

我们还注意到使用AI工具产生的一些反复出现的失败模式或"兔子洞"。在撰写论文时,我们要求AI生成一个小的、自包含的结果,它在几分钟内完美完成,此时我们告诉它这个子项目已完成。然而,在接下来的几天里,AI会自发主动建议回到这个话题,尽管被反复告知除非被要求否则不要这样做。这令人恼火地提醒我们生成式AI没有完美的回忆,只有上下文的不完整摘要或嵌入。在为实验编写代码以说明我们的理论发现时,我们发现AI可以在快速编写大量相当复杂的工作代码和在琐事上迷失几个小时之间交替,比如简单地打印出正在执行循环的哪次迭代。

培养下一代研究人员

历史上,人们通过作为初级研究人员的艰难过程在数学科学中获得专业知识。博士生花费数年时间研究技术论证的细节,以获得关于证明方法何时有前景、何时被问题误导或什么构成新颖有趣研究方向的来之不易的直觉。

但研究人员的这些方面正是AI工具正在"赠送"的。如果博士生可以简单地向AI索要证明——这极其诱人,特别是当它有助于推进研究时——他们如何发展目前至少需要的经验和技能,以便首先高效地使用AI工具?

我们可能需要更有意识地向年轻研究人员传授这些基础技能,也许采用在小学不使用计算器教算术的高级版本。直接建议是要求初级研究人员"老式地"撰写论文,即使他们的工作可以通过AI加速。

也许在单独的轨道上,学生将接受理解和使用新兴AI工具的训练。这是一个日益重要的领域,可能需要创造性的解决方案。虽然我们坚信AI工具将为科学做出惊人的事情,但重要的是要有意调节它们的使用,以便将研究人员培养到能够明智和有品味地使用它们的程度,而不是简单地作为二流研究的捷径。

这些下一代培训挑战对使用AI的科学家来说并不独特。我们在无数领域看到它们,包括工程、客户服务、法律、写作和设计——实际上,任何入门级任务(以前用于向年轻工作者介绍某个领域)现在使用AI完成的行业。为了找到这种技能培训挑战的创造性解决方案,或者更好地预测即将发生的变化,跨领域或时间类比可能会有所帮助。

在高级编程语言和编译器在20世纪60年代早期广泛引入后,大多数软件工程师不再编写机器代码或汇编语言,这些直接向底层硬件提供指令但编程繁琐。但最好的程序员仍然对编译器如何将高级语言转化为机器代码有足够的了解,以便对正确性和性能进行推理。我们希望使构造和检查技术论证变得更容易,让所有研究人员在更高的抽象级别操作并"思考更大的想法"。我们设想的文化将强调品味、问题选择和建模技能,并贬低技术魔法本身的价值。

同行评议面临的挑战

从我们的角度来看,同行评议不仅仅是,甚至主要不是验证研究正确性和质量的过程。相反,它的目的是将稀缺资源——研究社区的注意力——集中在正确的地方。科学随着研究人员相互建立在彼此工作基础上而进步,但已经有太多工作让任何人都无法跟上。出版过程应该帮助识别最有趣和最有前景的方向,以便它们能够更有效和彻底地发展。

AI如何影响这种社区注意力的集中?AI工具使产生看起来精美和正确的工作变得更容易,大大降低了生成可以提交给期刊和会议的"论文"的门槛。许多这些论文既不有趣也不真正正确——但发现这一点需要审稿人付出巨大努力。

这正在给已经不堪重负的机器学习出版生态系统带来压力,该系统正在努力应对每个会议数万份投稿。我们看到减少产生"一篇论文"——不一定是好论文——所需的时间和努力正在开始破坏我们现有的同行评议机构。AI和机器学习会议的最新迭代看到投稿数量大幅增长,其中很大一部分论文由AI润色,但最终质量很低,在被注意和揭发之前令人惊讶地通过了大部分评审过程。

这是各个研究领域的问题,部分因为它正在为AI生成的论文创造一个市场。这反过来产生了AI辅助检测AI生成论文的反市场——很像围绕垃圾邮件及其检测等事物的熟悉技术军备竞赛,但科学出版的完整性受到威胁,而不仅仅是过滤烦人或欺诈性电子邮件。

作为短期修复,AI驱动的自动正确性检查(例如,数学证明的正式验证),这些工具已经在主要会议上部署,可能很有价值。将此视为数学而非代码的单元测试形式。目标是过滤掉有非平凡错误的论文,同时将人类审稿人的工作重点放在他们最适合评估的科学重要部分:确定我们从新结果中学到关于世界的什么,以及它有多有用和有趣,而不是被检查无数论文技术正确性的单调所淹没。

如果没有对同行评议进行认真的、社区范围的重新评估,AI威胁在社区层面阻止科学进步,即使它在个人研究人员层面加速了进步。

拥抱变革,塑造未来

我们认为AI正在为科学研究方法论、培训和同行评议带来翻天覆地的变化;无法隐瞒即将到来的事情。但有机会主动适应并确保AI辅助研究实现其承诺。明年年底研究会是什么样子?后年呢?我们在过去一年中看到的变化比前十年更多,所以我们能够自信预测的只是"不同"。

我们的科学机构——同行评议、出版、研究生教育——经过数十年发展以匹配人类认知和努力的约束。这些约束正在快速变化,我们的机构需要与它们一起变化。我们的目标应该是引导走向一个世界,在这个世界中AI放大人类创造力和洞察力,加速发现,扩大谁可以参与研究事业——同时保持使科学有价值的快乐和严谨。

Q&A

Q1:AI如何帮助数学家进行证明?

A:AI工具能够仅从高层证明草图的提示中开发和编写严格的数学证明。研究人员可以向AI智能体口头描述数学论证,就像对人类合作者一样,智能体可以将该草图转化为正式书面的引理或定理及其证明,大大加速了研究过程。

Q2:AI生成的数学证明准确率如何?

A:AI生成的证明大约只有四分之三的时间是正确的,存在25%的错误率。当证明错误时,如果能识别错误,通常可以迭代到正确性。这个错误率足够低使工具对专家极其有用,但也足够高,需要谨慎使用以避免产生有缺陷的研究。

Q3:AI对科学出版和同行评议有什么影响?

A:AI工具大大降低了生成看似精美论文的门槛,导致投稿数量大幅增长,但其中许多质量很低。这给同行评议系统带来巨大压力,威胁科学出版的完整性。需要引入AI驱动的自动正确性检查等新机制来应对这一挑战。

相关内容

AI如何改变数学研究的本质
现代AI编码工具已经彻底改变了软件工程,开发者现在使用AI助手编写...
2026-03-11 03:42:23
稳坐全球第一,石头科技如何...
出品 | 子弹财经 作者 | 小同 编辑 | 闪电 美编 | 倩倩...
2026-03-10 22:04:50
“龙虾”智能体持续走热,如...
新华社北京3月10日电 题:“龙虾”智能体持续走热,如何确保使用安...
2026-03-10 22:02:41
如何维护金融稳定?央行行长...
每经记者:李彪 张蕊 每经编辑:廖丹 3月6日下午,十四届全国人大...
2026-03-08 20:30:13
从实验室到产业化如何全链条...
“十五五”开局之年,科创依然是排名靠前的热词。在近日举行的2026...
2026-03-08 18:29:37
Claude Code之父...
整理 | 褚杏娟 Boris Cherny 近期访谈不断。他是 ...
2026-03-08 12:06:29

热门资讯

原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
耳聋耳背知识分享-----耳朵... 耳朵听力下降恢复方法首先要找出听力下降的病因,其次针对病因进行对症治疗。 耳朵听力下降,如何恢复听...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
如何有效应对低血压问题,提升生... 血压低,这个问题在生活中并不罕见。很多人可能会觉得,血压低就像是个小毛病,不用太在意。但实际上,低血...
孩子自控力差?家长如何引导培养 孩子自控力差?家长如何引导培养 在孩子的成长过程中,自控力是一项至关重要的能力。它关乎孩子的学业表现...
郑州银行大额存单利率:1、活期... 导读2022郑州银行大额存单利率一、存款利率:1、活期存款:0.3%2、整存整取:三个月1.60%,...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...
宝宝不吸奶瓶的问题如何解决 原标题:宝宝不吸奶瓶的问题如何解决 宝宝出生后不久,有些妈妈因为要上班而不得不...