编程能力评测
评测项目
Claude Mythos Preview
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
SWE-bench Verified
93.9%
80.8%
—
80.6%
SWE-bench Pro
77.8%
53.4%
57.7%
54.2%
SWE-bench 多语言
87.3%
77.8%
—
—
SWE-bench 多模态
59%
27.1%
—
—
Terminal-Bench 2.0*
82%
65.4%
75.1%
68.5%
列表推理与知识评测
评测项目
Claude Mythos Preview
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
GPQA Diamond
94.5%
91.3%
92.8%
94.3%
MMMLU
92.7%
91.1%
—
92.6%–93.6%
USAMO(数学竞赛)
97.6%
42.3%
95.2%
74.4%
GraphWalks BFS 256K-1M
80.0%
38.7%
21.4%
—
HLE(无工具)
56.8%
40.0%
39.8%
44.4%
HLE(有工具)
64.7%
53.1%
52.1%
51.4%
CharXiv 推理(无工具)
86.1%
61.5%
-
-
CharXiv 推理(有工具)
93.2%
78.9%
-
-
OSWorld
79.6%
72.7%
75.0%
—
BrowseComp 测试时算力扩展
[image: 263c1a75-163a-4b10-820d-8127f511d252.png]
图表显示,随着允许模型使用的 token 总量增加(借助上下文压缩技术),BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%,远优于其他模型。
事实性基准测试得分
[image: 333ba501-dae4-47ba-8dd3-e717ff019fa1.png]
在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中,Claude Mythos Preview(橙红色)在"正确"率上均大幅领先(分别达 60.1%、70.7%、70.8%),同时"不确定"和"错误"比例更低,说明其校准性优于此前所有模型。
关于发布计划的声明
Anthropic不打算将 Claude Mythos Preview 面向公众全面开放,但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的,也为了此类高能力模型所能带来的无数其他价值。为此,Anthropic需要在开发网络安全(及其他领域)防护措施上取得进展,以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制,从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。