La comunidad lanza RuneScape-Bench: Gemini 3.5 Flash obtiene una puntuación global de 5.4 en las pruebas de agentes de juego

ref · 21 Mayo, 2026 16:02

El desarrollador Max Bittker ha lanzado el benchmark de código abierto RuneScape-Bench (RuneBench), cuyo objetivo es evaluar la capacidad de los modelos para planificar en múltiples pasos, invocar herramientas y generar código, al permitir que los AI Agents completen tareas dentro de un entorno simulado del servidor antiguo de RuneScape. El servidor de simulación se ejecuta a una velocidad 8 veces superior a la real; los agentes deben controlar a sus personajes mediante scripts en TypeScript y diseñar estrategias basándose en la documentación de la wiki. La puntuación final se calcula según la tasa óptima de obtención de experiencia durante intervalos de 15 segundos. Según pruebas realizadas por la comunidad, Gemini 3.5 Flash obtuvo una puntuación global de 5.4, superando a GPT-5.5, GPT-5.4 y Claude Opus 4.7 en varias categorías de habilidades iniciales; en la página de resultados también se incluyen tablas comparativas detalladas por cada habilidad.

La filosofía detrás de RuneScape-Bench consiste en utilizar juegos de mundo abierto como escenarios de prueba rigurosos para las capacidades reales de los agentes, algo distinto de los tradicionales benchmarks de autocompletado de código o preguntas tipo test. No obstante, ciertos miembros de la comunidad cuestionan hasta qué punto estos resultados son representativos, argumentando que el benchmark aún carece de una revisión por pares suficiente. Tanto la clasificación general como los datos específicos de cada modelo están disponibles públicamente en maxbittker.github.io, mientras que el código fuente se encuentra en GitHub, facilitando la integración de nuevos modelos para ejecutar pruebas propias.

GitHub maxbittker/runebench

Tema	Respuestas	Vistas
谷歌发布 Gemini 3.5 Flash，速度 4 倍于同类前沿模型常规 ai , gemini , google , 大模型 , google-io	6	20 Mayo 2026
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	15	21 Mayo 2026
谷歌 AI Mode 月活破 10 亿，搜索框 25 年最大升级常规 google , google-io , 搜索 , ai-mode , agent	8	20 Mayo 2026
Google Antigravity adds Gemini 3.5 Flash Low tier, cuts token usage by 45% for simple tasks 常规 antigravity , gemini , google , token-optimization	9	25 Mayo 2026
Nous Research launches Hermes Desktop in public preview, native app for macOS, Windows, and Linux 常规 ai , 开源 , agent , nous-research , hermes	5	3 Junio 2026

La comunidad lanza RuneScape-Bench: Gemini 3.5 Flash obtiene una puntuación global de 5.4 en las pruebas de agentes de juego

Temas relacionados