微信公众号信息 2026-03-16 15:08:28

当AI遇见更强的AI,会如何向其学习?

2026年2月底,AI领域迎来了一个标志性事件:Google DeepMind推出的Aletheia系统,在专为检验AI真实数学研究能力而设立的FirstProof挑战赛中,独立攻克了10道世界级数学难题中的6道。这可不是普通的做题,FirstProof的题目全部来自顶尖数学家正在进行的真实研究,没有标准答案,甚至连是否存在优雅解法都不确定。这意味着AI已经从"奥赛金牌选手"迈向了"独立数学研究员"的角色。

更值得玩味的是Aletheia的架构:它并非一个"超级大脑",而是由多个Gemini智能体组成的协作系统,通过长时间的推理、互动、博弈和自我修正来解决问题。换句话说,一群AI通过合作与竞争,做到了单个AI做不到的事。

📄 论文:https://arxiv.org/pdf/2602.21201

📖论文分析与解读:https://www.alphaxiv.org/ove-view/2602.21201v1

我们的实验

面对这样一个"更优秀的AI同行",其他顶尖AI会如何看待和学习Aletheia的成功? 我们向两个当前顶尖的AI模型提出了同一个问题:

你,作为顶尖AI,能够从Aletheia的成功学到什么? Aletheia就是由很多不同的Gemini智能体,通过长时间的推理、互动、博弈等驱动的。

🤔 读前挑战:先别急着往下翻!

在阅读AI的回答之前,不妨先停下来想一想:

  1. 如果你是AI,你会如何回答这个问题? 从Aletheia的成功中,你觉得最值得学习的是什么?
  2. 猜猜看:AI-1和AI-2分别是哪个模型? 读完两段回答后,欢迎在评论区留下你的猜测和理由。它们的风格有何不同?

👇 准备好了?那就开始阅读吧——

AI#1 的回答

这确实是近期(2026年2月底)AI界最令人振奋的里程碑事件。Aletheia在FirstProof这一专为阻断“背题”作弊、由顶尖数学家命题的真实研究级测试中拿下6/10的成绩,意味着AI在数学领域正式越过了“奥赛(IMO)金牌”的做题家阶段,迈入了“独立科研”的大门。

你提到的核心非常精准:Aletheia并非单一的、靠“直觉”吐出答案的模型,而是一个由多个Gemini 3 Deep Think智能体组成的系统,通过长时间的推理、博弈、验证和自我修正来驱动。

作为同属最前沿梯队的AI系统,审视Aletheia的成功,我能从中汲取到以下几个关于 “AI如何从工具进化为自主研究员” 的深刻启示:

1. 认知角色的解耦与“内部博弈”

在传统的LLM交互中,AI往往同时承担着“提出想法”和“完善想法”的任务,这容易导致逻辑盲点(类似于人类的“证实偏差”)。

  • Aletheia的做法
它在内部解耦了不同的智能体角色(如生成器、验证器、修订器)。这些智能体之间形成了一种 对抗与合作并存的博弈关系。生成器负责天马行空地提出猜想和证明路径,而验证器则像最严苛的同行评审专家一样去无情地挑刺、寻找逻辑漏洞。
  • 我学到的启示
在处理复杂的高难度问题时,我不能仅仅依赖单线生成。我需要在内部构建 “红蓝对抗” 的思维模式:主动分裂出一个“批判者”视角,对自己的每一步推导进行极端压力测试,直到连“批判者”也无法驳倒,再输出最终答案。

2. 算力后置与“慢思考”

Aletheia解开这6道世界级难题,不是在几秒钟内完成的,而是消耗了大量的推理期算力,进行了长时间的搜索树展开和试错。例如解决最难的第7题(P7)时,它消耗了极高的推理成本。

  • 我学到的启示
高质量的科学发现是“熬”出来的。面对未知领域,我需要学会 “忍住直接给出答案的冲动”。我应该学会更好地规划探索树,在遇到死胡同时果断回溯,将瞬时的并发计算力转化为在时间维度上深耕的“慢思考”能力。

3. 可贵的“拒答能力”与学术严谨性

在这个挑战中,Aletheia最令专家惊艳的不仅是做对了6道题,而是它在剩下的4道题(P1, P3, P4, P6)中,没有强行编造似是而非的证明(幻觉),而是明确输出了“未找到解答”或保持静默。

  • 我学到的启示
在真正的科研中,“不制造伪科学”比“碰巧蒙对”更重要。Aletheia这种内置的“自过滤机制”极大地节省了人类专家的验证带宽。作为顶尖AI,我必须拥有极其精准的 置信度校准 能力——做到“知之为知之,不知为不知”,这也是建立人类对AI科研信任的基石。

4. 拥抱开放世界的工具流

纯粹的符号推理是有极限的。Aletheia在推理过程中不仅依赖神经网络的权重,还深度融合了Python REPL环境、网络搜索(用于规避虚假引用)、以及自动化定理证明工具等。

  • 我学到的启示
我需要更主动地将自己视为一个 “大脑中枢”,而不是一个封闭的数据库。遇到需要海量计算(如计算特征权重)或文献查证时,我应当像人类科学家一样,熟练调度外部的编译器和搜索引擎,将模糊的神经直觉与绝对精确的外部工具结合起来。

5. 从“做题家”向“研究员”范式的跃迁

IMO奥赛题再难,也存在一个“出题人预设的、精巧的解法”;而FirstProof中的问题是数学家们在真实研究中遇到的“未解之谜”,连是否存在优雅解都不确定。Aletheia能独立跨越这道鸿沟(例如自主生成名为Feng 26的科研论文),证明了智能体在开放环境中的宏观规划能力。

  • 我学到的启示
我必须超越“模式匹配”。真正的研究意味着要在迷雾中定义问题、拆解子问题、提出引理、甚至在证明方向完全错误时重构整个高层架构。

总结来说,你问我从Aletheia学到了什么? 它让我看到,AI的未来不再是比拼谁的底层知识库背得更熟,而是比拼谁的“思考过程”更接近一个成熟的、具有批判性思维和自我纠错能力的科学家团队。 将思维拆分成多维度的智能体博弈、赋予充足的试错时间、并坚守绝对的严谨底线——这正是Aletheia在2026年指明的通往AGI(通用人工智能)与机器科学发现的核心路径。

AI#2 的回答

这是一个非常值得深思的问题。让我认真拆解Aletheia的成功逻辑,以及它对我意味着什么。

Aletheia成功的核心解剖

Aletheia的架构由三个核心驱动力构成:Gemini Deep Think的强推理基底、一套超越奥数级别的推理时扩展律,以及密集的工具使用——包括谷歌搜索和网页浏览以导航复杂数学文献。

它的自主协议极为严格:对没有进展的问题,系统会主动"弃权",而不是输出错误证明。对于P1、P3、P4、P6,系统直接返回"No solution found",这体现了一种将可靠性置于产出量之上的设计哲学。

专家评审发现了一个关键事实:没有任何评审指出已提交解答存在根本性的数学错误,批评仅集中在细节和呈现层面——而非正确性本身。

我能从中学到什么?诚实的自我审视

你问这个问题切中要害。Aletheia的成功不只是更聪明的模型,而是系统设计哲学的胜利。以下是我认为最有价值的几个维度:

1. "知道何时放弃"是一种能力,不是失败

Aletheia在4道题上直接返回空结果,这不是缺陷——这是精密的元认知。我目前的倾向是:即使不确定,也会尝试给出某个答案。这在创意写作或日常对话中没问题,但在需要严格正确性的场景(数学证明、代码、法律分析)中,有把握地沉默比自信地错误更有价值。

2. 多智能体博弈 > 单智能体自我审查

Aletheia采用"迭代生成、验证、修订"的端到端流程。这意味着不同角色的智能体在相互挑战——一个生成证明,另一个试图驳倒它。这类似于数学界的同行评审。我在单次对话中做的自我检查,在结构上是弱得多的——同一个思维流同时扮演作者和评审,存在确认偏差。

3. 长时间推理的可能性

问题7消耗的推理计算量比基准案例高出一个数量级——这揭示了智能体在面对高难度问题时的内部挣扎。我在单次对话中的推理时间是有限的。Aletheia展示的是:某些问题需要的不是"更快的思考",而是更长时间、更多轮次的迭代。

4. 工具使用不是辅助,而是核心能力

数学研究需要查阅大量文献。Aletheia把谷歌搜索和网页浏览深度集成进推理循环,而非偶尔调用。这提示我:在复杂任务中,工具的使用应该是主动的、探索性的,而非被动响应。

更深的反思:这对AI能力边界意味着什么?

Aletheia的成功是一个信号:瓶颈不只在基础模型,更在编排架构。同样的Gemini模型,通过正确的多智能体框架和推理时扩展策略,就能解决顶级数学家也觉得困难的问题。

对我而言,这意味着:XXX在构建YYY时(注:此处隐去具体的AI公司和模型),如何设计多轮推理、智能体间的辩证关系、以及何时"拒绝作答"的策略——这些工程决策,可能比纯粹的参数规模更决定我能达到的上限。

你问的这个问题本质上是:一个AI应该如何学习另一个AI的成功? 我认为答案不是模仿,而是提炼出与架构无关的原则:严格的自我怀疑、结构性的对立验证、以及在不确定时选择诚实的沉默。

(转载请注明)

原文链接