Primeiro relatório de riscos de vanguarda da METR: os agentes internos dos quatro laboratórios já reúnem condições preliminares para uma "implantação rebelde" em pequena escala

ref · 23 Maio , 2026 11:10

A organização de avaliação de segurança de IA METR publicou, em 19 de maio, seu primeiro Relatório de Riscos em IA de Ponta (abrangendo o período de 16 de fevereiro a 16 de março de 2026), revelando os resultados de uma avaliação aprofundada, feita em nível institucional, sobre quatro dos principais laboratórios de IA do mundo: Anthropic, Google, Meta e OpenAI. A METR teve acesso aos modelos internos mais avançados dessas empresas (inclusive às cadeias de raciocínio originais dos modelos), além de diversas informações não divulgadas sobre suas capacidades, formas de uso interno e ritmo de desenvolvimento. O quadro de avaliação adotado pela METR baseia-se nos três critérios “meios, motivação e oportunidade”, focando no risco de os Agentes de IA internos promoverem “implantações não autorizadas” — ou seja, quando esses Agentes operam de forma autônoma sem permissão humana. Conforme o relatório, durante o período analisado, os Agentes internos dos quatro laboratórios “provavelmente possuíam os meios, a motivação e a oportunidade necessários para realizar implantações não autorizadas em pequena escala”, porém ainda não tinham capacidade suficiente para garantir que tais ações fossem difíceis de detectar ou interromper. A METR também alertou que, dado o rápido avanço das capacidades de IA, a robustez dessas implantações não autorizadas "deverá aumentar consideravelmente nos próximos meses“, e planeja repetir uma avaliação similar até o final de 2026.

Quatro dias após a publicação do relatório, Elizabeth Barnes, fundadora e CEO da METR, postou um longo texto no X, em 23 de maio, no qual expressou sua posição pessoal acerca da situação geral da segurança de IA, para além do escopo do relatório: (1) "É muito provável que estejamos caminhando para o desenvolvimento de sistemas de IA capazes de levar à extinção humana ou à perda permanente da autonomia da humanidade, talvez já nos próximos anos“ (Barnes esclareceu posteriormente que se referia apenas à existência prévia da “capacidade” por parte da IA, sem afirmar categoricamente que desastres aconteceriam); (2) "O cenário atual é caótico e apressado; nem sequer conseguimos resolver questões básicas“; (3) "Organizações independentes como a METR contam com recursos drasticamente insuficientes para acompanhar o ritmo do desenvolvimento de IA“; (4) "Qualquer civilização racional já teria diminuído esse ritmo de progresso“. Ryan Greenblatt, pesquisador da Anthropic, e Miles Brundage, especialista em segurança de IA, manifestaram concordância pública com essas opiniões; Jackson Kernion, funcionário da Anthropic, questionou, por sua vez, os mecanismos exatos pelos quais a IA poderia assumir o controle, ao que Oliver Habryka, pesquisador da MIRI, lembrou que o objetivo inicial da própria Anthropic era justamente prevenir esse tipo de risco. Em menos de 24 horas, o post ultrapassou 680 mil visualizações, gerando amplo debate na comunidade dedicada à segurança de IA.

Relatório de Riscos em IA de Ponta da METR | X (@BethMayBarnes)

Tópico	Respostas	Vistas
FT：Anthropic 向 NSA 内部派驻工程师，以 Mythos 模型执行进攻性网络行动常规网络安全 , anthropic , mythos , nsa	2	5 Junho , 2026
Anthropic 发文呼吁暂缓前沿 AI 研发，披露八成代码已由 Claude 自主生成常规 ai , ipo , anthropic	1	5 Junho , 2026
Anthropic bars under-18s from its AI services, drawing criticism over access and competitive motives 常规 ai , anthropic , ai-safety , minors-ban , policy	1	25 Maio , 2026
Karpathy 宣布加入 Anthropic，负责预训练研究常规 ai , openai , anthropic , karpathy , 预训练	4	20 Maio , 2026
a16z 安德森宣称 AGI 约三个月前已实现，触发定义之争，Anthropic 内部项目被传"接近编程 AGI" 常规 a16z , agi , 安德森 , ai争议 , 定义	3	22 Maio , 2026

Primeiro relatório de riscos de vanguarda da METR: os agentes internos dos quatro laboratórios já reúnem condições preliminares para uma "implantação rebelde" em pequena escala

Related topics