腾讯混元颠覆AI训练新思路:用技能图谱让小模型逆袭大模型

2026年5月7日

46

342

腾讯混元颠覆AI训练新思路:用技能图谱让小模型逆袭大模型

在AI领域,有一个看似合理的直觉:给模型安排越多的训练任务,它就会越强大。然而腾讯混元团队的最新研究颠覆了这一认知——真正决定训练效果的并非任务数量,而是AI在执行这些任务时经历了多少种不同的场景和技能组合。

方法论:图谱驱动的训练轨迹多样性

腾讯混元团队提出了一种名为SkillSynth的创新方法,构建了一张规模庞大的“技能图谱”:包含82,073个场景节点、57,214条技能边,以及185,529个经过LLM验证的桥接关系。其中85.6%的节点连通在最大连通分量中,意味着绝大多数技能都能串联成完整的工作流程。这一图谱覆盖了编码、文档处理、DevOps、安全等常见领域,并持续向音频语音、3D仿真、IoT硬件等长尾领域扩展。

采样策略与自动任务生成

SkillSynth的核心思路是将AI操作终端的过程抽象为“场景-技能”序列。其中,“场景”代表AI在某个决策点面临的状态(如“视频文件已下载但未压缩”),而“技能”则是AI在该状态下执行的一组动作(如“用ffmpeg压缩视频”)。每个技能从“前置场景”指向“后置场景”,形成有向图结构,图中的一条路径就对应一个真实的多步骤工作流。

训练Agent的胜负手不在参数量,也不在任务数量,而在训练轨迹的多样性。

“腾讯混元团队”

采样策略的关键创新

在采样环节,团队采用了逆频率加权策略——被访问较少的节点和边会被优先选中,从而避免路径扎堆在热门节点上,确保采样出的路径在“场景×技能“空间上实现均匀覆盖。采样出路径后,一个多Agent协作流程将抽象路径转化为具体的可执行任务:规划器将路径转化为结构化的子目标和预期输出,构造器生成完整任务实例(包含指令、文件系统快照、容器环境、验证脚本、参考解法),最后通过双重验证机制(执行验证+评分验证)确保任务质量。一次全自动运行从3,721条采样路径中产出3,560个通过验证的任务实例,验证通过率高达95.7%。

实验结果有力验证了方法的有效性:在权威终端Agent基准Terminal-Bench 2.0上,使用SkillSynth训练的Qwen3-32B(320亿参数)得分29.6%,直接超越了参数量是其15倍的Qwen3 Coder 480B(23.9%)。对比实验显示,SkillSynth比单技能基线高出8.4分,比随机组合多技能基线高出3.0分。多样性指标更直观:SkillSynth轨迹的唯一“场景-技能“覆盖率比单技能高31%,比随机多技能高19%。消融实验还揭示了一个重要发现——随机拼凑多个技能(不经过图谱引导)效果明显更差,因为随机组合缺乏工作流连贯性。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI