METR 首份前沿风险报告：四大实验室内部 Agent 已具备小规模"流氓部署"初步条件

ref · 2026 年5 月 23 日 11:10

AI 安全评估机构 METR 于 5 月 19 日发布首份《前沿风险报告》（评估窗口：2026 年 2 月 16 日至 3 月 16 日），披露了其深入 Anthropic、谷歌（Google）、Meta 和 OpenAI 四家顶尖 AI 实验室进行实体级别风险评估的结果。METR 获得了各参与方最强大的内部模型访问权（含原始推理链），以及有关能力、内部使用方式和进展速度的大量非公开信息。评估框架围绕"手段、动机、机会"三个维度，聚焦于内部 AI Agent 发动"流氓部署"（即 Agent 在未经人工授权的情况下自主运行）的风险。报告结论为：在评估期内，四家实验室的内部 Agent “很可能具备了发动小规模流氓部署所需的手段、动机和机会”，但尚不具备使其高度稳健（难以被发现或关停）的能力。METR 同时警告，随着 AI 能力迅速提升，流氓部署的稳健性"预计将在未来数月内大幅提高"，并计划于 2026 年底重复开展类似评估。

报告发布四天后，METR 创始人兼 CEO Elizabeth Barnes 于 5 月 23 日在 X 发表长帖，在报告框架之外就更宏观的 AI 安全形势表明个人立场：（1）“我们很可能正走向开发出具备导致人类灭绝或永久丧失自主权能力的 AI 系统的轨道，甚至可能在未来几年内”（Barnes 随后澄清，此处特指 AI 具备此类"能力"这一前提条件，而非直接断言灾难会发生）；（2）“情况混乱而仓促，我们连基本问题都没搞定”；（3）“METR 等独立机构相对于 AI 发展速度，资源严重不足”；（4）“理性的文明早就应该放慢脚步”。Anthropic 研究员 Ryan Greenblatt 和 AI 安全研究者 Miles Brundage 等人公开表示认同；Anthropic 员工 Jackson Kernion 则对 AI"接管"的具体机制表示质疑，MIRI 研究员 Oliver Habryka 随即指出 Anthropic 成立初衷正是为了防范此类风险。该帖 24 小时内浏览量超 68 万次，在 AI 安全圈引发广泛讨论。

METR 前沿风险报告 | X (@BethMayBarnes)

话题	回复	浏览量
FT：Anthropic 向 NSA 内部派驻工程师，以 Mythos 模型执行进攻性网络行动常规网络安全 , anthropic , mythos , nsa	1	2026 年6 月 5 日
Anthropic 发文呼吁暂缓前沿 AI 研发，披露八成代码已由 Claude 自主生成常规 ai , ipo , anthropic	1	2026 年6 月 5 日
Anthropic bars under-18s from its AI services, drawing criticism over access and competitive motives 常规 ai , anthropic , ai-safety , minors-ban , policy	1	2026 年5 月 25 日
Karpathy 宣布加入 Anthropic，负责预训练研究常规 ai , openai , anthropic , karpathy , 预训练	4	2026 年5 月 20 日
a16z 安德森宣称 AGI 约三个月前已实现，触发定义之争，Anthropic 内部项目被传"接近编程 AGI" 常规 a16z , agi , 安德森 , ai争议 , 定义	3	2026 年5 月 22 日

METR 首份前沿风险报告：四大实验室内部 Agent 已具备小规模"流氓部署"初步条件

相关话题