智谱GLM-5.1高速版APIが公開！400トークン/秒という速度で、世界の大規模言語モデルの中でも最速を誇るとされる

ref · 2026 年 5 月 22 日午前 8:31

智谱は5月22日にフラッグシップ級の高速モデルAPI『GLM-5.1-highspeed』をリリースし、一部の企業顧客向けに限定公開した。このモデルの出力速度は400トークン/秒に達しており、智谱によればこれは現時点で世界の大規模言語モデルベンダーのAPIとして最高速記録だという。従来の業界慣例では『高速＝軽量』とされてきたが、GLM-5.1高速版はフラッグシップモデルであるGLM-5.1の推論・コーディング機能を完全に維持しつつ、200Kのコンテキストウィンドウと128Kの最大出力長をサポートする。国産大規模言語モデルとして初めて、フラッグシップ級の性能と極めて低いレイテンシーを両立させた実用レベルのモデルとなった。

技術面では、高速版は智谱のGLMチームとTileRTチームが共同開発した。中核的なブレークスルーはTileRT推論エンジンによるもので、コンパイル時の静的オーケストレーションとTile単位のマイクロタスクスケジューリングにより無駄なオーバーヘッドを排除し、ハードウェアの物理的限界に近づけた。またスケジューリングシステム層では動的バッチ処理やKVキャッシュスケジューリングを導入して末尾レイテンシーを削減し、クラスターとネットワークのシステムレベルでの最適化も行ったため、400トークン/秒という数値は一時的なピーク値ではなく安定的に利用可能な実用レベルの性能となっている。実測データによると、コード生成効率は通常モデル比で約10倍向上し、複雑なウェブページのコードも30秒以内に生成できる。Agent Swarm環境下では50種類もの異なる人格を持つエージェントを瞬時に同時起動することも可能だ。現在このAPIはAIプログラミング、リアルタイムインタラクション、ビジネス意思決定、リアルタイム音声処理など、低レイテンシーが求められるシナリオに対応している。価格設定はまだ公表されておらず、智谱BigModelオープンプラットフォーム経由で企業資格の申請を行う必要がある。

IT之家

トピック	返信	表示
谷歌发布 Gemini 3.5 Flash，速度 4 倍于同类前沿模型常规 ai , gemini , google , 大模型 , google-io	5	2026 年 5 月 20 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	9	2026 年 5 月 21 日
阿里千问发布 Qwen3.7-Max，智能体旗舰，自主执行 35 小时常规 ai , 大模型 , qwen , 智能体 , 阿里巴巴	6	2026 年 5 月 20 日
Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行常规开源 , 大模型 , cohere , moe , command-a	4	2026 年 5 月 21 日
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	3	2026 年 6 月 1 日

智谱GLM-5.1高速版APIが公開！400トークン/秒という速度で、世界の大規模言語モデルの中でも最速を誇るとされる

関連トピック