El desarrollador Max Bittker ha lanzado el benchmark de código abierto RuneScape-Bench (RuneBench), cuyo objetivo es evaluar la capacidad de los modelos para planificar en múltiples pasos, invocar herramientas y generar código, al permitir que los AI Agents completen tareas dentro de un entorno simulado del servidor antiguo de RuneScape. El servidor de simulación se ejecuta a una velocidad 8 veces superior a la real; los agentes deben controlar a sus personajes mediante scripts en TypeScript y diseñar estrategias basándose en la documentación de la wiki. La puntuación final se calcula según la tasa óptima de obtención de experiencia durante intervalos de 15 segundos. Según pruebas realizadas por la comunidad, Gemini 3.5 Flash obtuvo una puntuación global de 5.4, superando a GPT-5.5, GPT-5.4 y Claude Opus 4.7 en varias categorías de habilidades iniciales; en la página de resultados también se incluyen tablas comparativas detalladas por cada habilidad.
La filosofía detrás de RuneScape-Bench consiste en utilizar juegos de mundo abierto como escenarios de prueba rigurosos para las capacidades reales de los agentes, algo distinto de los tradicionales benchmarks de autocompletado de código o preguntas tipo test. No obstante, ciertos miembros de la comunidad cuestionan hasta qué punto estos resultados son representativos, argumentando que el benchmark aún carece de una revisión por pares suficiente. Tanto la clasificación general como los datos específicos de cada modelo están disponibles públicamente en maxbittker.github.io, mientras que el código fuente se encuentra en GitHub, facilitando la integración de nuevos modelos para ejecutar pruebas propias.