Lanzamiento del API de alta velocidad de Zhipu GLM-5.1: afirman que 400 tokens/s supera el límite mundial de velocidad para modelos de lenguaje

Zhipu lanzó el 22 de mayo la API del modelo de alta velocidad ‘GLM-5.1-highspeed’, disponible exclusivamente para ciertos clientes empresariales. Esta herramienta alcanza una velocidad de generación de 400 tokens por segundo; según Zhipu, este valor supera el límite actual de velocidad en las APIs de modelos de gran tamaño a nivel mundial. A diferencia de la práctica habitual en el sector, donde los modelos rápidos suelen ser más ligeros, la versión ‘highspeed’ de GLM-5.1 mantiene intactas todas las capacidades de razonamiento y codificación propias del modelo estrella GLM-5.1. Además, admite una ventana de contexto de 200 000 tokens y un máximo de 128 000 tokens en la salida, logrando por primera vez en modelos nacionales la combinación de prestaciones de élite con latencias mínimas aptas para entornos productivos.

Desde el punto de vista técnico, esta versión fue desarrollada conjuntamente por los equipos de GLM y TileRT de Zhipu. El avance clave proviene del motor de inferencia TileRT: mediante una organización estática en tiempo de compilación y una planificación minuciosa de microtareas a nivel Tile, se eliminan gastos innecesarios, acercándose así al límite físico del hardware. Asimismo, se incorporaron procesamiento por lotes dinámico y gestión optimizada de cachés KV para reducir las latencias residuales; además, se realizaron mejoras coordinadas a nivel de clústeres y redes, garantizando que los 400 tokens/s sean una capacidad estable y operativa, no solo un pico puntual. Los resultados de pruebas muestran que la eficiencia en la generación de código aumenta unas diez veces respecto a los modelos convencionales; incluso se puede crear código web complejo en apenas 30 segundos. En escenarios de ‘Agent Swarm’, permite desplegar simultáneamente hasta 50 agentes con personalidades distintas. Actualmente, esta API está preparada para aplicaciones sensibles a la baja latencia, como programación asistida por IA, interacción en tiempo real, toma de decisiones comerciales y voz en directo; por el momento no se ha publicado su tarifa, y para acceder a ella es necesario solicitar la condición de empresa vía la plataforma abierta BigModel de Zhipu.

IT Home