智谱GLM-5.1高速版APIが公開!400トークン/秒という速度で、世界の大規模言語モデルの中でも最速を誇るとされる

智谱は5月22日にフラッグシップ級の高速モデルAPI『GLM-5.1-highspeed』をリリースし、一部の企業顧客向けに限定公開した。このモデルの出力速度は400トークン/秒に達しており、智谱によればこれは現時点で世界の大規模言語モデルベンダーのAPIとして最高速記録だという。従来の業界慣例では『高速=軽量』とされてきたが、GLM-5.1高速版はフラッグシップモデルであるGLM-5.1の推論・コーディング機能を完全に維持しつつ、200Kのコンテキストウィンドウと128Kの最大出力長をサポートする。国産大規模言語モデルとして初めて、フラッグシップ級の性能と極めて低いレイテンシーを両立させた実用レベルのモデルとなった。

技術面では、高速版は智谱のGLMチームとTileRTチームが共同開発した。中核的なブレークスルーはTileRT推論エンジンによるもので、コンパイル時の静的オーケストレーションとTile単位のマイクロタスクスケジューリングにより無駄なオーバーヘッドを排除し、ハードウェアの物理的限界に近づけた。またスケジューリングシステム層では動的バッチ処理やKVキャッシュスケジューリングを導入して末尾レイテンシーを削減し、クラスターとネットワークのシステムレベルでの最適化も行ったため、400トークン/秒という数値は一時的なピーク値ではなく安定的に利用可能な実用レベルの性能となっている。実測データによると、コード生成効率は通常モデル比で約10倍向上し、複雑なウェブページのコードも30秒以内に生成できる。Agent Swarm環境下では50種類もの異なる人格を持つエージェントを瞬時に同時起動することも可能だ。現在このAPIはAIプログラミング、リアルタイムインタラクション、ビジネス意思決定、リアルタイム音声処理など、低レイテンシーが求められるシナリオに対応している。価格設定はまだ公表されておらず、智谱BigModelオープンプラットフォーム経由で企業資格の申請を行う必要がある。

IT之家