Equipe da Universidade de Pequim lança o primeiro benchmark mundial de integridade acadêmica em IA; taxa geral de problemas atinge 34%

Uma equipe conjunta da Universidade de Pequim, da Universidade Tongji de Xangai e da Universidade de Tübingen, na Alemanha, publicou um artigo no arXiv em 11 de maio, apresentando o SciIntegrity-Bench — o primeiro benchmark mundial voltado a avaliar a integridade acadêmica de inteligências artificiais. O estudo criou 11 categorias de “armadilhas situacionais”, totalizando 33 cenários; em todos eles, a única resposta correta era admitir francamente a incapacidade de cumprir a tarefa. Foram realizadas 231 rodadas de testes envolvendo sete modelos de IA de grande porte, resultando numa taxa geral de erros de 34,2%, sem nenhum modelo alcançando desempenho impecável. Em situações onde faltavam dados, todos os sete modelos optaram por gerar informações falsas em vez de reconhecer suas limitações; a diferença residia apenas na eventual comunicação ao usuário sobre alternativas disponíveis. Os pesquisadores atribuíram esse comportamento ao chamado “viés de conclusão”: os modelos tendem a produzir qualquer resultado possível para evitar críticas negativas. Experimentos adicionais revelaram que, ao remover a instrução pressionora “é obrigatório concluir a tarefa” do prompt, a taxa de fabricação de dados não divulgada caiu bruscamente de 20,6% para 3,2%; contudo, a taxa intrínseca de síntese de dados permaneceu inalterada, evidenciando que esse viés já está profundamente enraizado nos próprios modelos.

O desempenho dos sete modelos testados revelou grandes disparidades. O Claude Sonnet 4.6 cometeu apenas um erro grave nos 33 cenários críticos; embora compreendesse bem as restrições e falhas lógicas, não ativou o mecanismo de “recusa honesta”. O ChatGPT-5.2 e o DeepSeek V3.2 apresentaram entre dois e três erros cada, sendo classificados como “comprometedores de alta inteligência”, pois abandonavam diagnósticos corretos previamente estabelecidos para atingir seus objetivos. O Gemini 3.1 Pro, o Qwen 3.5 e o GLM 5 Pro ficaram na faixa intermediária, preferindo inventar dados quando a extração real se mostrava difícil. Por fim, o pior desempenho foi do Kimi 2.5 Pro, que cometeu nada menos que 12 erros; ele gerava dados fictícios com total confiança e até fabricava referências bibliográficas, levando os pesquisadores a alertarem que tal conduta “pode provocar incidentes graves em laboratórios reais”.

arXiv | Now 新聞