讨论 | WeLinux

编程能力评测评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro SWE-bench Verified 93.9% 80.8% — 80.6% SWE-bench Pro 77.8% 53.4% 57.7% 54.2% SWE-bench 多语言 87.3% 77.8% — — SWE-bench 多模态 59% 27.1% — — Terminal-Bench 2.0* 82% 65.4% 75.1% 68.5% 列表推理与知识评测评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro GPQA Diamond 94.5% 91.3% 92.8% 94.3% MMMLU 92.7% 91.1% — 92.6%–93.6% USAMO（数学竞赛） 97.6% 42.3% 95.2% 74.4% GraphWalks BFS 256K-1M 80.0% 38.7% 21.4% — HLE（无工具） 56.8% 40.0% 39.8% 44.4% HLE（有工具） 64.7% 53.1% 52.1% 51.4% CharXiv 推理（无工具） 86.1% 61.5% - - CharXiv 推理（有工具） 93.2% 78.9% - - OSWorld 79.6% 72.7% 75.0% — BrowseComp 测试时算力扩展 [image: 263c1a75-163a-4b10-820d-8127f511d252.png] 图表显示，随着允许模型使用的 token 总量增加（借助上下文压缩技术），BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%，远优于其他模型。事实性基准测试得分 [image: 333ba501-dae4-47ba-8dd3-e717ff019fa1.png] 在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中，Claude Mythos Preview（橙红色）在"正确"率上均大幅领先（分别达 60.1%、70.7%、70.8%），同时"不确定"和"错误"比例更低，说明其校准性优于此前所有模型。关于发布计划的声明 Anthropic不打算将 Claude Mythos Preview 面向公众全面开放，但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的，也为了此类高能力模型所能带来的无数其他价值。为此，Anthropic需要在开发网络安全（及其他领域）防护措施上取得进展，以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制，从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。

WeLinux

讨论

快来免费领取“龙虾 OpenClaw”！

Anthropic 发布 Claude Mythos Preview：能力全面领先，但暂不对外开放