Anthropic Claude Opus 4.7正式发布:代码与文档处理能力全面超越竞品

2026年4月17日

34

326

Anthropic Claude Opus 4.7正式发布:代码与文档处理能力全面超越竞品

2026年4月16日,Anthropic悄然发布了新一代旗舰模型Claude Opus 4.7。与以往不同,这次发布既没有发布会也没有直播倒计时,但模型的能力提升却相当显著。更值得关注的是,Anthropic在保持与前代相同的定价策略的同时,实现了多项核心能力的实质性突破。

代码能力:工程场景的质变突破

Opus 4.7的代码能力在SWE-bench Pro测试中达到64.3%,相比前代4.6的53.4%提升了约11个百分点,同时超越了GPT-5.4的57.7%。在真实生产环境测试中,Opus 4.7在CursorBench基准上获得70%的准确率(4.6为58%),而在Rakuten的实际生产代码库中,4.7解决的实际工程问题数量达到了4.6的3倍——这是一个200%的净增幅,而非常规的渐进式提升。

文档推理:被低估的企业级能力

值得注意的是,这次能力提升呈现出明显的非对称分布特征。Anthropic明确指出,4.7的性能跃升主要体现在高难度任务上,而非简单指令。Opus 4.7在处理大型代码库的多步推理、跨文件依赖追踪和回归风险控制等复杂场景时,优势会显著扩大。这对于期望将AI推向核心工程岗位的团队而言,是一个值得认真评估的信号。

这次升级让我觉得真正有意思的地方不是某一个具体的benchmark数字,而是能力提升的分布方式:视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic这次的更新更像是在全面夯实底座——而底座越扎实,上层应用能做的事就越多。

“行业观察”

视觉与长文本:底座能力全面夯实

在文档推理领域,Opus 4.7在OfficeQA Pro基准上达到80.6%,将GPT-5.4的51.1%和Gemini 3.1 Pro的42.9%远远甩在身后,差距超过23个百分点。这个数字对企业场景意义重大:每天都有大量法务审合同、财务分析财报、咨询顾问拆解RFP等文档工作,80.6%的准确率意味着这些任务可以大规模外包给AI处理,人类只需对关键节点做最终判断。

视觉理解方面,Opus 4.7将图像输入上限提升至长边2576像素、约375万像素,是此前Claude模型的3倍以上。ScreenSpot-Pro测试中,高分辨率图像的视觉导航准确率达到87.6%,低分辨率版本仅为69.0%——仅因分辨率提升,准确率就提升了约22个百分点。长文本推理方面,BFS 1M场景下从41.2%提升至58.6%,17个百分点的差距意味着模型在需要持续追踪、反复交叉引用的复杂任务上实现了质的飞跃。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI