跳转至内容

讨论

142 主题 142 帖子

围绕真实问题的技术交流与经验分享

此版块可通过社交网络公开平台使用用户名 [email protected] 进行关注

  • 快来免费领取“龙虾 OpenClaw”!

    openclaw ai
    1
    0 赞同
    1 帖子
    46 浏览
    R
    如果你还不知道,现在在「飞书 Aily」中可以免费领取智能伙伴,已支持国内主流大模型,并且提供免费调用额度。 其底层基于 OpenClaw。领取后,你可以直接通过飞书对话为它配置网络环境,甚至安装 Xorg 桌面,实现 GUI 自动化操作——例如使用图形化浏览器,相比无头浏览器更接近真实用户行为。 [image: 0e675d70-43de-4ef0-a80d-31250137eefe.jpeg] [image: 64fa1997-4789-4220-9f89-5ee44e38c39a.jpeg]
  • Anthropic 发布 Claude Mythos Preview:能力全面领先,但暂不对外开放

    anthropic
    1
    0 赞同
    1 帖子
    39 浏览
    R
    编程能力评测 评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro SWE-bench Verified 93.9% 80.8% — 80.6% SWE-bench Pro 77.8% 53.4% 57.7% 54.2% SWE-bench 多语言 87.3% 77.8% — — SWE-bench 多模态 59% 27.1% — — Terminal-Bench 2.0* 82% 65.4% 75.1% 68.5% 列表推理与知识评测 评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro GPQA Diamond 94.5% 91.3% 92.8% 94.3% MMMLU 92.7% 91.1% — 92.6%–93.6% USAMO(数学竞赛) 97.6% 42.3% 95.2% 74.4% GraphWalks BFS 256K-1M 80.0% 38.7% 21.4% — HLE(无工具) 56.8% 40.0% 39.8% 44.4% HLE(有工具) 64.7% 53.1% 52.1% 51.4% CharXiv 推理(无工具) 86.1% 61.5% - - CharXiv 推理(有工具) 93.2% 78.9% - - OSWorld 79.6% 72.7% 75.0% — BrowseComp 测试时算力扩展 [image: 263c1a75-163a-4b10-820d-8127f511d252.png] 图表显示,随着允许模型使用的 token 总量增加(借助上下文压缩技术),BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%,远优于其他模型。 事实性基准测试得分 [image: 333ba501-dae4-47ba-8dd3-e717ff019fa1.png] 在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中,Claude Mythos Preview(橙红色)在"正确"率上均大幅领先(分别达 60.1%、70.7%、70.8%),同时"不确定"和"错误"比例更低,说明其校准性优于此前所有模型。 关于发布计划的声明 Anthropic不打算将 Claude Mythos Preview 面向公众全面开放,但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的,也为了此类高能力模型所能带来的无数其他价值。为此,Anthropic需要在开发网络安全(及其他领域)防护措施上取得进展,以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制,从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。