PDF解析迎来新王:2B小模型刷新SOTA榜单,精度超越35B大模型

2026年5月30日

36

352

PDF解析迎来新王:2B小模型刷新SOTA榜单,精度超越35B大模型

在构建知识库、智能问答、RAG系统时,文档解析始终是绕不过去的坎。扫描版PDF、嵌套表格、图文混排的技术文档、甚至包含复杂公式的学术论文——传统OCR工具往往只能输出一堆混乱文字,排版关系荡然无存。虽然MinerU、Marker等开源方案通过多阶段Pipeline(检测→识别→版面分析→重建)改善了效果,但延迟高、部署复杂、泛化能力有限等问题依然突出。

性能对比:数据揭示真实差距

近期,一款名为Infinity-Parser2的开源模型横空出世,直接刷新了文档解析领域的性能天花板。该模型用强化学习同时训练6个任务,实现了统一架构下的多能力融合:文档解析、表格提取、公式识别、图表转结构化数据、文档问答、化学式解析——全部由一个模型搞定。更令人惊讶的是,它的2B参数版本在保持高速推理的同时,精度表现足以与大型模型同台竞技。

技术内核:可验证奖励的联合强化学习

在文档解析领域最权威的公开基准olmOCR-bench上,Infinity-Parser2-Pro(35B版本)拿下87.6%的成绩,比PaddleOCR-VL-1.5高出7.6个百分点,比MinerU-2.5高出12.4个百分点。这意味着同样解析100页PDF,MinerU可能遗漏或错排约25页,而Infinity-Parser2-Pro只错约12页。更值得玩味的是2B Flash版的表现——它达到86.0%,仅比Pro版低1.6个百分点,速度却快了3.68倍。 在更严苛的ParseBench测试中,面对多栏排版、嵌套表格、图文混排等复杂版式,Infinity-Parser2-Pro的74.3%准确率大幅领先Gemini-3-Pro的69.1%,更是竞品的1.6到1.8倍。多任务能力测试同样亮眼:表格解析94.76%(vs PaddleOCR 84.6%)、公式识别97.7%(vs DeepSeek-OCR-2 79.8%)、文档问答96.43%(vs DeepSeek-OCR-2 43.42%)、化学式解析71.48%(vs DeepSeek-OCR-2 52.16%)。可以

不是靠堆Pipeline,而是靠多任务强化学习训出来的通用版面理解能力。

“技术洞察”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

数据引擎:500万样本与动态采样

Infinity-Parser2的核心创新并非更大的模型规模,而是训练方式的革新。传统多任务学习采用“共享backbone+多个task head”架构,各任务独立优化,容易出现梯度垄断问题。Infinity-Parser2设计了一套可验证奖励系统(Verifiable Reward System):文档解析输出结构化JSON,按与真值的匹配度奖励;表格输出HTML表格,按单元格准确率奖励;公式输出LaTeX,按编译成功率和语义等价性奖励;图表输出结构化数据,按数值匹配率奖励。这些奖励均可自动验证,无需人工标注偏好数据。 基于这套奖励机制,模型通过Joint Reinforcement Learning同时优化全部任务——同一个batch中混合6种任务样本,梯度联合回传。这使得模型习得的是“通用版面理解能力”而非特定版式的记忆模板,从而在零样本场景下面对新型版式时依然表现稳健。

部署策略:Pro与Flash双版本

训练数据的质量与多样性同样关键。Infinity-Parser2采用升级版合成数据引擎,支持固定版式(论文、报告、简历)和自由版式(网页截图、设计稿、手写笔记),共积累近500万多样化文档解析样本。更重要的是动态自适应采样机制:训练过程中根据各任务loss曲线自动调整采样比例,防止简单任务“垄断”梯度,确保每个任务尤其是样本稀缺的化学公式等任务获得足够的训练机会。这一设计解决了多任务学习中的经典难题——低-loss任务挤压高-loss任务的资源分配。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI