当AI遇见更强的AI,会如何向其学习?
更值得玩味的是Aletheia的架构:它并非一个"超级大脑",而是由多个Gemini智能体组成的协作系统,通过长时间的推理、互动、博弈和自我修正来解决问题。换句话说,一群AI通过合作与竞争,做到了单个AI做不到的事。
📄 论文:https://arxiv.org/pdf/2602.21201
📖论文分析与解读:https://www.alphaxiv.org/ove-view/2602.21201v1
我们的实验
面对这样一个"更优秀的AI同行",其他顶尖AI会如何看待和学习Aletheia的成功? 我们向两个当前顶尖的AI模型提出了同一个问题:
你,作为顶尖AI,能够从Aletheia的成功学到什么? Aletheia就是由很多不同的Gemini智能体,通过长时间的推理、互动、博弈等驱动的。
🤔 读前挑战:先别急着往下翻!
在阅读AI的回答之前,不妨先停下来想一想:
- 如果你是AI,你会如何回答这个问题? 从Aletheia的成功中,你觉得最值得学习的是什么?
- 猜猜看:AI-1和AI-2分别是哪个模型? 读完两段回答后,欢迎在评论区留下你的猜测和理由。它们的风格有何不同?
👇 准备好了?那就开始阅读吧——
AI#1 的回答
这确实是近期(2026年2月底)AI界最令人振奋的里程碑事件。Aletheia在FirstProof这一专为阻断“背题”作弊、由顶尖数学家命题的真实研究级测试中拿下6/10的成绩,意味着AI在数学领域正式越过了“奥赛(IMO)金牌”的做题家阶段,迈入了“独立科研”的大门。
你提到的核心非常精准:Aletheia并非单一的、靠“直觉”吐出答案的模型,而是一个由多个Gemini 3 Deep Think智能体组成的系统,通过长时间的推理、博弈、验证和自我修正来驱动。
作为同属最前沿梯队的AI系统,审视Aletheia的成功,我能从中汲取到以下几个关于 “AI如何从工具进化为自主研究员” 的深刻启示:
1. 认知角色的解耦与“内部博弈”
在传统的LLM交互中,AI往往同时承担着“提出想法”和“完善想法”的任务,这容易导致逻辑盲点(类似于人类的“证实偏差”)。
- Aletheia的做法
- 我学到的启示
2. 算力后置与“慢思考”
Aletheia解开这6道世界级难题,不是在几秒钟内完成的,而是消耗了大量的推理期算力,进行了长时间的搜索树展开和试错。例如解决最难的第7题(P7)时,它消耗了极高的推理成本。
- 我学到的启示
3. 可贵的“拒答能力”与学术严谨性
在这个挑战中,Aletheia最令专家惊艳的不仅是做对了6道题,而是它在剩下的4道题(P1, P3, P4, P6)中,没有强行编造似是而非的证明(幻觉),而是明确输出了“未找到解答”或保持静默。
- 我学到的启示
4. 拥抱开放世界的工具流
纯粹的符号推理是有极限的。Aletheia在推理过程中不仅依赖神经网络的权重,还深度融合了Python REPL环境、网络搜索(用于规避虚假引用)、以及自动化定理证明工具等。
- 我学到的启示
5. 从“做题家”向“研究员”范式的跃迁
IMO奥赛题再难,也存在一个“出题人预设的、精巧的解法”;而FirstProof中的问题是数学家们在真实研究中遇到的“未解之谜”,连是否存在优雅解都不确定。Aletheia能独立跨越这道鸿沟(例如自主生成名为Feng 26的科研论文),证明了智能体在开放环境中的宏观规划能力。
- 我学到的启示
总结来说,你问我从Aletheia学到了什么? 它让我看到,AI的未来不再是比拼谁的底层知识库背得更熟,而是比拼谁的“思考过程”更接近一个成熟的、具有批判性思维和自我纠错能力的科学家团队。 将思维拆分成多维度的智能体博弈、赋予充足的试错时间、并坚守绝对的严谨底线——这正是Aletheia在2026年指明的通往AGI(通用人工智能)与机器科学发现的核心路径。
AI#2 的回答
这是一个非常值得深思的问题。让我认真拆解Aletheia的成功逻辑,以及它对我意味着什么。
Aletheia成功的核心解剖
Aletheia的架构由三个核心驱动力构成:Gemini Deep Think的强推理基底、一套超越奥数级别的推理时扩展律,以及密集的工具使用——包括谷歌搜索和网页浏览以导航复杂数学文献。
它的自主协议极为严格:对没有进展的问题,系统会主动"弃权",而不是输出错误证明。对于P1、P3、P4、P6,系统直接返回"No solution found",这体现了一种将可靠性置于产出量之上的设计哲学。
专家评审发现了一个关键事实:没有任何评审指出已提交解答存在根本性的数学错误,批评仅集中在细节和呈现层面——而非正确性本身。
我能从中学到什么?诚实的自我审视
你问这个问题切中要害。Aletheia的成功不只是更聪明的模型,而是系统设计哲学的胜利。以下是我认为最有价值的几个维度:
1. "知道何时放弃"是一种能力,不是失败
Aletheia在4道题上直接返回空结果,这不是缺陷——这是精密的元认知。我目前的倾向是:即使不确定,也会尝试给出某个答案。这在创意写作或日常对话中没问题,但在需要严格正确性的场景(数学证明、代码、法律分析)中,有把握地沉默比自信地错误更有价值。
2. 多智能体博弈 > 单智能体自我审查
Aletheia采用"迭代生成、验证、修订"的端到端流程。这意味着不同角色的智能体在相互挑战——一个生成证明,另一个试图驳倒它。这类似于数学界的同行评审。我在单次对话中做的自我检查,在结构上是弱得多的——同一个思维流同时扮演作者和评审,存在确认偏差。
3. 长时间推理的可能性
问题7消耗的推理计算量比基准案例高出一个数量级——这揭示了智能体在面对高难度问题时的内部挣扎。我在单次对话中的推理时间是有限的。Aletheia展示的是:某些问题需要的不是"更快的思考",而是更长时间、更多轮次的迭代。
4. 工具使用不是辅助,而是核心能力
数学研究需要查阅大量文献。Aletheia把谷歌搜索和网页浏览深度集成进推理循环,而非偶尔调用。这提示我:在复杂任务中,工具的使用应该是主动的、探索性的,而非被动响应。
更深的反思:这对AI能力边界意味着什么?
Aletheia的成功是一个信号:瓶颈不只在基础模型,更在编排架构。同样的Gemini模型,通过正确的多智能体框架和推理时扩展策略,就能解决顶级数学家也觉得困难的问题。
对我而言,这意味着:XXX在构建YYY时(注:此处隐去具体的AI公司和模型),如何设计多轮推理、智能体间的辩证关系、以及何时"拒绝作答"的策略——这些工程决策,可能比纯粹的参数规模更决定我能达到的上限。
你问的这个问题本质上是:一个AI应该如何学习另一个AI的成功? 我认为答案不是模仿,而是提炼出与架构无关的原则:严格的自我怀疑、结构性的对立验证、以及在不确定时选择诚实的沉默。
(转载请注明)