METR 首份前沿风险报告:四大实验室内部 Agent 已具备小规模"流氓部署"初步条件

AI 安全评估机构 METR 于 5 月 19 日发布首份《前沿风险报告》(评估窗口:2026 年 2 月 16 日至 3 月 16 日),披露了其深入 Anthropic、谷歌(Google)、Meta 和 OpenAI 四家顶尖 AI 实验室进行实体级别风险评估的结果。METR 获得了各参与方最强大的内部模型访问权(含原始推理链),以及有关能力、内部使用方式和进展速度的大量非公开信息。评估框架围绕"手段、动机、机会"三个维度,聚焦于内部 AI Agent 发动"流氓部署"(即 Agent 在未经人工授权的情况下自主运行)的风险。报告结论为:在评估期内,四家实验室的内部 Agent “很可能具备了发动小规模流氓部署所需的手段、动机和机会”,但尚不具备使其高度稳健(难以被发现或关停)的能力。METR 同时警告,随着 AI 能力迅速提升,流氓部署的稳健性"预计将在未来数月内大幅提高",并计划于 2026 年底重复开展类似评估。

报告发布四天后,METR 创始人兼 CEO Elizabeth Barnes 于 5 月 23 日在 X 发表长帖,在报告框架之外就更宏观的 AI 安全形势表明个人立场:(1)“我们很可能正走向开发出具备导致人类灭绝或永久丧失自主权能力的 AI 系统的轨道,甚至可能在未来几年内”(Barnes 随后澄清,此处特指 AI 具备此类"能力"这一前提条件,而非直接断言灾难会发生);(2)“情况混乱而仓促,我们连基本问题都没搞定”;(3)“METR 等独立机构相对于 AI 发展速度,资源严重不足”;(4)“理性的文明早就应该放慢脚步”。Anthropic 研究员 Ryan Greenblatt 和 AI 安全研究者 Miles Brundage 等人公开表示认同;Anthropic 员工 Jackson Kernion 则对 AI"接管"的具体机制表示质疑,MIRI 研究员 Oliver Habryka 随即指出 Anthropic 成立初衷正是为了防范此类风险。该帖 24 小时内浏览量超 68 万次,在 AI 安全圈引发广泛讨论。

METR 前沿风险报告 | X (@BethMayBarnes)