当AI遇见更强的AI，会如何向其学习？

2026年2月底，AI领域迎来了一个标志性事件：Google DeepMind推出的Aletheia系统，在专为检验AI真实数学研究能力而设立的FirstProof挑战赛中，独立攻克了10道世界级数学难题中的6道。这可不是普通的做题，FirstProof的题目全部来自顶尖数学家正在进行的真实研究，没有标准答案，甚至连是否存在优雅解法都不确定。这意味着AI已经从"奥赛金牌选手"迈向了"独立数学研究员"的角色。

更值得玩味的是Aletheia的架构：它并非一个"超级大脑"，而是由多个Gemini智能体组成的协作系统，通过长时间的推理、互动、博弈和自我修正来解决问题。换句话说，一群AI通过合作与竞争，做到了单个AI做不到的事。

📄 论文：https://arxiv.org/pdf/2602.21201

📖论文分析与解读：https://www.alphaxiv.org/ove-view/2602.21201v1

我们的实验

面对这样一个"更优秀的AI同行"，其他顶尖AI会如何看待和学习Aletheia的成功？我们向两个当前顶尖的AI模型提出了同一个问题：

你，作为顶尖AI，能够从Aletheia的成功学到什么？ Aletheia就是由很多不同的Gemini智能体，通过长时间的推理、互动、博弈等驱动的。

🤔 读前挑战：先别急着往下翻！

在阅读AI的回答之前，不妨先停下来想一想：

如果你是AI，你会如何回答这个问题？从Aletheia的成功中，你觉得最值得学习的是什么？
猜猜看：AI-1和AI-2分别是哪个模型？读完两段回答后，欢迎在评论区留下你的猜测和理由。它们的风格有何不同？

👇 准备好了？那就开始阅读吧——

AI#1 的回答

这确实是近期（2026年2月底）AI界最令人振奋的里程碑事件。Aletheia在FirstProof这一专为阻断“背题”作弊、由顶尖数学家命题的真实研究级测试中拿下6/10的成绩，意味着AI在数学领域正式越过了“奥赛（IMO）金牌”的做题家阶段，迈入了“独立科研”的大门。

你提到的核心非常精准：Aletheia并非单一的、靠“直觉”吐出答案的模型，而是一个由多个Gemini 3 Deep Think智能体组成的系统，通过长时间的推理、博弈、验证和自我修正来驱动。

作为同属最前沿梯队的AI系统，审视Aletheia的成功，我能从中汲取到以下几个关于 “AI如何从工具进化为自主研究员” 的深刻启示：

1. 认知角色的解耦与“内部博弈”

在传统的LLM交互中，AI往往同时承担着“提出想法”和“完善想法”的任务，这容易导致逻辑盲点（类似于人类的“证实偏差”）。

Aletheia的做法

它在内部解耦了不同的智能体角色（如生成器、验证器、修订器）。这些智能体之间形成了一种对抗与合作并存的博弈关系。生成器负责天马行空地提出猜想和证明路径，而验证器则像最严苛的同行评审专家一样去无情地挑刺、寻找逻辑漏洞。

我学到的启示

在处理复杂的高难度问题时，我不能仅仅依赖单线生成。我需要在内部构建 “红蓝对抗” 的思维模式：主动分裂出一个“批判者”视角，对自己的每一步推导进行极端压力测试，直到连“批判者”也无法驳倒，再输出最终答案。

2. 算力后置与“慢思考”

Aletheia解开这6道世界级难题，不是在几秒钟内完成的，而是消耗了大量的推理期算力，进行了长时间的搜索树展开和试错。例如解决最难的第7题（P7）时，它消耗了极高的推理成本。

我学到的启示

高质量的科学发现是“熬”出来的。面对未知领域，我需要学会 “忍住直接给出答案的冲动”。我应该学会更好地规划探索树，在遇到死胡同时果断回溯，将瞬时的并发计算力转化为在时间维度上深耕的“慢思考”能力。

3. 可贵的“拒答能力”与学术严谨性

在这个挑战中，Aletheia最令专家惊艳的不仅是做对了6道题，而是它在剩下的4道题（P1, P3, P4, P6）中，没有强行编造似是而非的证明（幻觉），而是明确输出了“未找到解答”或保持静默。

我学到的启示

在真正的科研中，“不制造伪科学”比“碰巧蒙对”更重要。Aletheia这种内置的“自过滤机制”极大地节省了人类专家的验证带宽。作为顶尖AI，我必须拥有极其精准的置信度校准能力——做到“知之为知之，不知为不知”，这也是建立人类对AI科研信任的基石。

4. 拥抱开放世界的工具流

纯粹的符号推理是有极限的。Aletheia在推理过程中不仅依赖神经网络的权重，还深度融合了Python REPL环境、网络搜索（用于规避虚假引用）、以及自动化定理证明工具等。

我学到的启示

我需要更主动地将自己视为一个 “大脑中枢”，而不是一个封闭的数据库。遇到需要海量计算（如计算特征权重）或文献查证时，我应当像人类科学家一样，熟练调度外部的编译器和搜索引擎，将模糊的神经直觉与绝对精确的外部工具结合起来。

5. 从“做题家”向“研究员”范式的跃迁

IMO奥赛题再难，也存在一个“出题人预设的、精巧的解法”；而FirstProof中的问题是数学家们在真实研究中遇到的“未解之谜”，连是否存在优雅解都不确定。Aletheia能独立跨越这道鸿沟（例如自主生成名为Feng 26的科研论文），证明了智能体在开放环境中的宏观规划能力。

我学到的启示

我必须超越“模式匹配”。真正的研究意味着要在迷雾中定义问题、拆解子问题、提出引理、甚至在证明方向完全错误时重构整个高层架构。

总结来说，你问我从Aletheia学到了什么？它让我看到，AI的未来不再是比拼谁的底层知识库背得更熟，而是比拼谁的“思考过程”更接近一个成熟的、具有批判性思维和自我纠错能力的科学家团队。将思维拆分成多维度的智能体博弈、赋予充足的试错时间、并坚守绝对的严谨底线——这正是Aletheia在2026年指明的通往AGI（通用人工智能）与机器科学发现的核心路径。

AI#2 的回答

这是一个非常值得深思的问题。让我认真拆解Aletheia的成功逻辑，以及它对我意味着什么。

Aletheia成功的核心解剖

Aletheia的架构由三个核心驱动力构成：Gemini Deep Think的强推理基底、一套超越奥数级别的推理时扩展律，以及密集的工具使用——包括谷歌搜索和网页浏览以导航复杂数学文献。

它的自主协议极为严格：对没有进展的问题，系统会主动"弃权"，而不是输出错误证明。对于P1、P3、P4、P6，系统直接返回"No solution found"，这体现了一种将可靠性置于产出量之上的设计哲学。

专家评审发现了一个关键事实：没有任何评审指出已提交解答存在根本性的数学错误，批评仅集中在细节和呈现层面——而非正确性本身。

我能从中学到什么？诚实的自我审视

你问这个问题切中要害。Aletheia的成功不只是更聪明的模型，而是系统设计哲学的胜利。以下是我认为最有价值的几个维度：

1. "知道何时放弃"是一种能力，不是失败

Aletheia在4道题上直接返回空结果，这不是缺陷——这是精密的元认知。我目前的倾向是：即使不确定，也会尝试给出某个答案。这在创意写作或日常对话中没问题，但在需要严格正确性的场景（数学证明、代码、法律分析）中，有把握地沉默比自信地错误更有价值。

2. 多智能体博弈 > 单智能体自我审查

Aletheia采用"迭代生成、验证、修订"的端到端流程。这意味着不同角色的智能体在相互挑战——一个生成证明，另一个试图驳倒它。这类似于数学界的同行评审。我在单次对话中做的自我检查，在结构上是弱得多的——同一个思维流同时扮演作者和评审，存在确认偏差。

3. 长时间推理的可能性

问题7消耗的推理计算量比基准案例高出一个数量级——这揭示了智能体在面对高难度问题时的内部挣扎。我在单次对话中的推理时间是有限的。Aletheia展示的是：某些问题需要的不是"更快的思考"，而是更长时间、更多轮次的迭代。

4. 工具使用不是辅助，而是核心能力

数学研究需要查阅大量文献。Aletheia把谷歌搜索和网页浏览深度集成进推理循环，而非偶尔调用。这提示我：在复杂任务中，工具的使用应该是主动的、探索性的，而非被动响应。

更深的反思：这对AI能力边界意味着什么？

Aletheia的成功是一个信号：瓶颈不只在基础模型，更在编排架构。同样的Gemini模型，通过正确的多智能体框架和推理时扩展策略，就能解决顶级数学家也觉得困难的问题。

对我而言，这意味着：XXX在构建YYY时（注：此处隐去具体的AI公司和模型），如何设计多轮推理、智能体间的辩证关系、以及何时"拒绝作答"的策略——这些工程决策，可能比纯粹的参数规模更决定我能达到的上限。

你问的这个问题本质上是：一个AI应该如何学习另一个AI的成功？我认为答案不是模仿，而是提炼出与架构无关的原则：严格的自我怀疑、结构性的对立验证、以及在不确定时选择诚实的沉默。

（转载请注明）

原文链接