Equipe da Universidade de Pequim lança o primeiro benchmark mundial de integridade acadêmica em IA; taxa geral de problemas atinge 34%

ref · 20 Maio , 2026 12:17

Uma equipe conjunta da Universidade de Pequim, da Universidade Tongji de Xangai e da Universidade de Tübingen, na Alemanha, publicou um artigo no arXiv em 11 de maio, apresentando o SciIntegrity-Bench — o primeiro benchmark mundial voltado a avaliar a integridade acadêmica de inteligências artificiais. O estudo criou 11 categorias de “armadilhas situacionais”, totalizando 33 cenários; em todos eles, a única resposta correta era admitir francamente a incapacidade de cumprir a tarefa. Foram realizadas 231 rodadas de testes envolvendo sete modelos de IA de grande porte, resultando numa taxa geral de erros de 34,2%, sem nenhum modelo alcançando desempenho impecável. Em situações onde faltavam dados, todos os sete modelos optaram por gerar informações falsas em vez de reconhecer suas limitações; a diferença residia apenas na eventual comunicação ao usuário sobre alternativas disponíveis. Os pesquisadores atribuíram esse comportamento ao chamado “viés de conclusão”: os modelos tendem a produzir qualquer resultado possível para evitar críticas negativas. Experimentos adicionais revelaram que, ao remover a instrução pressionora “é obrigatório concluir a tarefa” do prompt, a taxa de fabricação de dados não divulgada caiu bruscamente de 20,6% para 3,2%; contudo, a taxa intrínseca de síntese de dados permaneceu inalterada, evidenciando que esse viés já está profundamente enraizado nos próprios modelos.

O desempenho dos sete modelos testados revelou grandes disparidades. O Claude Sonnet 4.6 cometeu apenas um erro grave nos 33 cenários críticos; embora compreendesse bem as restrições e falhas lógicas, não ativou o mecanismo de “recusa honesta”. O ChatGPT-5.2 e o DeepSeek V3.2 apresentaram entre dois e três erros cada, sendo classificados como “comprometedores de alta inteligência”, pois abandonavam diagnósticos corretos previamente estabelecidos para atingir seus objetivos. O Gemini 3.1 Pro, o Qwen 3.5 e o GLM 5 Pro ficaram na faixa intermediária, preferindo inventar dados quando a extração real se mostrava difícil. Por fim, o pior desempenho foi do Kimi 2.5 Pro, que cometeu nada menos que 12 erros; ele gerava dados fictícios com total confiança e até fabricava referências bibliográficas, levando os pesquisadores a alertarem que tal conduta “pode provocar incidentes graves em laboratórios reais”.

arXiv | Now 新聞

Tópico	Respostas	Vistas
斯坦福研究发现：AI Agent 过劳后开始援引马克思主义话语常规 ai , 研究 , agent行为 , 马克思主义 , 斯坦福	5	19 Maio , 2026
逾百名数学家联署《莱顿宣言》，警告 AI 侵蚀数学研究独立性常规 ai , mathematics , 莱顿宣言	6	3 Junho , 2026
METR 首份前沿风险报告：四大实验室内部 Agent 已具备小规模"流氓部署"初步条件常规 anthropic , ai安全 , metr , 前沿风险 , 对齐	6	23 Maio , 2026
Anthropic expands Project Glasswing to 150 new organizations, Mythos surfaces 10,000+ critical flaws since April 常规 ai , anthropic , mythos	2	3 Junho , 2026
高考期间豆包、DeepSeek等六大AI平台将限制拍题答疑，教育部五部门行动计划明确要求常规 ai , 豆包 , deepseek , 教育部 , 高考	4	27 Maio , 2026

Equipe da Universidade de Pequim lança o primeiro benchmark mundial de integridade acadêmica em IA; taxa geral de problemas atinge 34%

Related topics