Claude Mythos:Anthropic发布的至今最强模型

2026年4月8日

13

953

Claude Mythos:Anthropic发布的至今最强模型

2026年4月7日,Anthropic正式发布Claude Mythos Preview。作为通用前沿模型,它被定位在Opus之上,成为Claude产品线的全新最高层级。这一发布不同于常规的模型更新——Anthropic没有开放API,没有更新网页端的模型选项,也没有公布传统 benchmark 排行榜。相反,Mythos被纳入一个名为Project Glasswing的网络安全计划中,目前仅向AWS、Apple、Google、Microsoft等12家核心合作方以及40余家关键基础设施组织开放使用权限。

定价策略与行业影响

Claude此前采用三层产品线:Haiku(轻量快速)、Sonnet(平衡性能与成本)、Opus(最强)。Mythos的诞生标志着第四层的正式确立。值得注意的是,在正式发布前,Fortune杂志从Anthropic意外公开的一个数据缓存中率先发现了这个模型的存在。泄露的内容显示,Mythos的内部代号为「Capybara」,被明确定义为「比 Opus 更大、更强,但也更贵」的全新模型层级。Anthropic当时回应称,这个模型代表了「能力上的阶跃」,是他们「迄今构建的最强模型」,正在被一小群早期客户试用。

分析

Mythos的安全能力并非专门训练而来。Anthropic红队博客明确表示:「我们没有专门训练Mythos Preview具备这些能力。它们是代码、推理和自主性方面整体改进的下游结果。」这意味着,同等的改进让模型既擅长修复漏洞,也擅长利用漏洞——这两个能力在技术层面实际上是同一件事的两个面向。

它同时是Anthropic有史以来最对齐的模型,也是最危险的模型。

“System Card”

从官方公布的评测数据来看,Mythos在多个关键指标上实现了显著提升:SWE-bench Verified达到93.9%(对比Opus 4.6的80.8%),SWE-bench Pro从53.4%跃升至77.8%,提升幅度接近46%。在推理方面,GPQA Diamond达到94.6%,OSWorld-Verified为79.6%。尤其值得关注的是,在BrowseComp测试中,Mythos的token消耗量仅为Opus 4.6的五分之一,做到了更强且更省。

更令人印象深刻的是Mythos在真实漏洞挖掘中的表现。在过去几周里,它在所有主流操作系统和浏览器中发现了数千个零日漏洞。三个已公开的具体案例包括:OpenBSD中潜伏27年的远程崩溃漏洞、FFmpeg中存留16年之久的代码漏洞(该代码行已被自动化测试工具命中超过500万次但从未被捕获)、以及Linux内核中通过利用竞争条件和KASLR绕过实现的权限提升链。Anthropic还进行了直接对比实验:同一组Firefox 147 JS引擎漏洞,Opus 4.6仅成功2次,而Mythos Preview成功达181次(另有29次获得寄存器控制)。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI