Anthropic 发布 Claude Opus 4.8:智能体编码成绩升至 69.2%,新增思考强度控制与动态工作流

北京时间 5 月 29 日,Anthropic 正式推出 Claude Opus 4.8,距上一代 Opus 4.7 发布仅 41 天,创下该公司旗舰模型迭代最短间隔记录。据 Anthropic 官方公告,新模型在智能体编码(SWE-Bench Pro)得分从 64.3% 升至 69.2%,多学科推理成绩从 54.7% 升至 57.9%,在浏览器智能体测试 Online-Mind2Web 中以 84% 的成绩超越 GPT-5.5 和 Gemini 3.1 Pro;标准定价维持不变,仍为每百万输入 token 5 美元、输出 25 美元。此次更新中,Anthropic 将"诚实度"列为最突出改进之一——内部评估显示,Opus 4.8 在生成代码时放过缺陷不予提示的概率约为 Opus 4.7 的四分之一。

此次更新同步带来两项新功能:一是"思考投入控制"(Effort Control),用户可在 claude.ai 及 Cowork 中手动调节模型的推理深度,从低耗能快速响应到高强度深度推理;二是面向 Claude Code 的"动态工作流"(Dynamic Workflows,研究预览版),支持在单次任务中并行调度数百个子智能体,可完成数十万行代码规模的整库迁移。此外,快速模式(Fast Mode)提速至常规的 2.5 倍,成本降至此前的三分之一。Anthropic 还透露,更高能力的 Claude Mythos 级模型预计将在"未来数周内"向所有客户开放,但因网络安全防护体系尚在完善,目前仍处于受限预览阶段。

Anthropic | TechCrunch