多智能体协同在数学研究任务中的应用与成果展示

2026年5月11日

61

777

当AI开始泡在数学项目里:DeepMind的48%突破意味着什么?

DeepMind 推出的 co-mathematician 工作台在 FrontierMath Tier 4 基准测试中取得 48% 的正确率,远超基座模型独立表现,显示通过系统化的多智能体分工能显著提升数学问题求解能力。

系统设计与多智能体协作

该系统由项目协调员、文献检索员、计算探索员、证明推导员与审稿人等角色组成,形成并行工作流与任务分工,强调工程化流程而非单一模型能力提升。

从 19% 到 48% 的跃升原因

基座模型 Gemini 3.1 Pro 单独作战的表现约为 19%,系统整体将其能力编排与协同后实现 48% 的突破,说明架构与流程对于复杂推理任务的关键作用。

从 19% 到 48% 的跃升来自系统设计与多智能体协同,而非单纯模型升级。

“小墨”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

实际研究应用与案例

牛津大学数学家使用该系统研究群论开放问题,系统能够自动分配研究路径并发现关键证明思路,为 AI 协助学术研究提供了新的范式。

意义与未来方向

这一成果表明,通过任务分工、审稿与并行探索,智能体系统在高阶数学任务上具备显著增效潜力,未来将推动更多跨学科合作与工具化研究平台的发展。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI