Lanzamiento del API de alta velocidad de Zhipu GLM-5.1: afirman que 400 tokens/s supera el límite mundial de velocidad para modelos de lenguaje

ref · 22 Mayo, 2026 08:31

Zhipu lanzó el 22 de mayo la API del modelo de alta velocidad ‘GLM-5.1-highspeed’, disponible exclusivamente para ciertos clientes empresariales. Esta herramienta alcanza una velocidad de generación de 400 tokens por segundo; según Zhipu, este valor supera el límite actual de velocidad en las APIs de modelos de gran tamaño a nivel mundial. A diferencia de la práctica habitual en el sector, donde los modelos rápidos suelen ser más ligeros, la versión ‘highspeed’ de GLM-5.1 mantiene intactas todas las capacidades de razonamiento y codificación propias del modelo estrella GLM-5.1. Además, admite una ventana de contexto de 200 000 tokens y un máximo de 128 000 tokens en la salida, logrando por primera vez en modelos nacionales la combinación de prestaciones de élite con latencias mínimas aptas para entornos productivos.

Desde el punto de vista técnico, esta versión fue desarrollada conjuntamente por los equipos de GLM y TileRT de Zhipu. El avance clave proviene del motor de inferencia TileRT: mediante una organización estática en tiempo de compilación y una planificación minuciosa de microtareas a nivel Tile, se eliminan gastos innecesarios, acercándose así al límite físico del hardware. Asimismo, se incorporaron procesamiento por lotes dinámico y gestión optimizada de cachés KV para reducir las latencias residuales; además, se realizaron mejoras coordinadas a nivel de clústeres y redes, garantizando que los 400 tokens/s sean una capacidad estable y operativa, no solo un pico puntual. Los resultados de pruebas muestran que la eficiencia en la generación de código aumenta unas diez veces respecto a los modelos convencionales; incluso se puede crear código web complejo en apenas 30 segundos. En escenarios de ‘Agent Swarm’, permite desplegar simultáneamente hasta 50 agentes con personalidades distintas. Actualmente, esta API está preparada para aplicaciones sensibles a la baja latencia, como programación asistida por IA, interacción en tiempo real, toma de decisiones comerciales y voz en directo; por el momento no se ha publicado su tarifa, y para acceder a ella es necesario solicitar la condición de empresa vía la plataforma abierta BigModel de Zhipu.

IT Home

Tema	Respuestas	Vistas
谷歌发布 Gemini 3.5 Flash，速度 4 倍于同类前沿模型常规 ai , gemini , google , 大模型 , google-io	5	20 Mayo 2026
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	9	21 Mayo 2026
阿里千问发布 Qwen3.7-Max，智能体旗舰，自主执行 35 小时常规 ai , 大模型 , qwen , 智能体 , 阿里巴巴	6	20 Mayo 2026
Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行常规开源 , 大模型 , cohere , moe , command-a	4	21 Mayo 2026
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	3	1 Junio 2026

Lanzamiento del API de alta velocidad de Zhipu GLM-5.1: afirman que 400 tokens/s supera el límite mundial de velocidad para modelos de lenguaje

Temas relacionados