Zhipu AI의 GLM-5.1 고속 버전 API 출시: 초당 400 토큰 처리로 전 세계 대형 언어 모델 중 최고 속도 기록 달성

ref · 5월 22, 2026, 8:31오전

지쥐는 5월 22일에 주요 기업 고객들을 대상으로 ‘GLM-5.1-highspeed’라는 플래그십급 고속 모델 API를 공개했습니다. 이 모델은 초당 400 tokens의 출력 속도를 자랑하는데, 지쥐 측은 이 수치가 현재 전 세계 대형 언어 모델 제조사들의 API 중 가장 빠른 속도라고 밝혔습니다. 기존 업계에서 ‘고속 모델은 경량화된 버전’이라는 관행과 달리, GLM-5.1 고속판은 플래그십 모델인 GLM-5.1의 추론 및 코딩 능력을 그대로 유지하면서도 200K 컨텍스트 창과 최대 128K 출력 길이까지 지원합니다. 이로써 국산 대형 언어 모델 중 처음으로 플래그십급 성능과 극히 낮은 지연 시간을 동시에 실현한 생산용 솔루션이 탄생했습니다.

기술적으로 이 고속판은 지쥐의 GLM 팀과 TileRT 팀이 공동 개발했으며, 핵심 혁신 요소는 TileRT 추론 엔진입니다. 컴파일 시점의 정적 오케스트레이션과 Tile 단위의 마이크로태스크 스케줄링을 통해 불필요한 오버헤드를 없애 하드웨어 물리적 한계에 근접하는 효율성을 확보했습니다. 또한 스케줄링 시스템 차원에서는 동적 배치 처리와 KV 캐시 스케줄링을 도입해 후미 지연 시간을 줄이고, 클러스터와 네트워크 간의 시스템 레벨 최적화를 통해 초당 400 tokens 속도가 일시적인 피크치가 아닌 안정적인 생산용 성능임을 보장합니다. 실제 테스트 결과에 따르면 코드 생성 효율이 일반 모델 대비 약 10배 향상되어 복잡한 웹페이지 코드도 30초 내에 작성할 수 있으며, Agent Swarm 환경에서는 50개의 서로 다른 인격체를 즉각적으로 병렬 가동할 수 있습니다. 현재 이 API는 AI 프로그래밍, 실시간 상호작용, 비즈니스 의사결정, 실시간 음성 처리 등 지연 시간에 민감한 다양한 분야에 적용 가능하지만, 구체적인 가격 정책은 아직 공개되지 않았습니다. 이용을 원하는 기업은 지쥐 BigModel 개방 플랫폼을 통해 자격 심사를 받아야 합니다.

IT홈

글	댓글	조회수
谷歌发布 Gemini 3.5 Flash，速度 4 倍于同类前沿模型常规 ai , gemini , google , 大模型 , google-io	5	5월 20, 2026
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	9	5월 21, 2026
阿里千问发布 Qwen3.7-Max，智能体旗舰，自主执行 35 小时常规 ai , 大模型 , qwen , 智能体 , 阿里巴巴	6	5월 20, 2026
Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行常规开源 , 大模型 , cohere , moe , command-a	4	5월 21, 2026
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	3	6월 1, 2026

Zhipu AI의 GLM-5.1 고속 버전 API 출시: 초당 400 토큰 처리로 전 세계 대형 언어 모델 중 최고 속도 기록 달성

Related topics