Sapient Intelligence(シンガポール)とマサチューセッツ工科大学の共同研究チームは5月20日にHRM-Textに関する論文を公開し、同時にGitHubおよびHuggingFaceにてモデルの重みや完全な訓練フレームワークもオープンソース化した。HRM-Textは「階層型推論モデル」(HRM)のアーキテクチャを基盤としており、標準的なTransformerの単回前方向伝播処理に代わり、二つの時間スケールを持つ再帰構造を採用している。すなわち、上位層モジュールがゆっくりとした抽象的な計画を立案し、下位層モジュールが素早い細粒度計算を実行。両者が連続潜在空間内で入れ子状に再帰した後に出力が得られる仕組みで、これにより固定されたパラメータ数でもほぼ無限の計算深さを実現している。パラメータ数が10億個のXL版は約400億個の有効トークンを用いて約46時間訓練され(H100を16枚搭載した2ノード構成で、費用は約1,472米ドル)、MMLUで60.7%、GSM8Kで84.5%、ARC-Challengeで81.9%、MATHで56.2%という性能を示した。一方、パラメータ数が6億個のL(TRM)バリアントは約800米ドルのコストで訓練が完了しており、複数の下流ベンチマークにおいて標準的なTransformerで訓練された30億パラメータ級のモデルを上回る結果となった。
訓練データに関しては、HRM-Textは約400億個の構造化トークンのみを利用しており、現在主流の事前訓練手法(4000億~36000億トークン使用)と比べるとその量は100分の1から1000分の1程度。計算量は130倍から600倍、データ量は150倍から900倍削減されている。オープンソース化されたコンテンツにはデータ抽出ツール、PrefixLMによるシーケンスパッキング機能、PyTorch FSDP2による分散訓練環境、FlashAttention 3カーネル、チェックポイント変換ツールなどが含まれており、現時点ではHopperアーキテクチャを備えたGPU(H100/H800)のみに対応している。なお、公開済みの重みは純粋な事前訓練版であり、指示微調整やRLHFによる整合化はまだ行われていないため、プリフィックスによるテキスト生成のみ可能となる。int4形式に量子化するとモデルサイズは約0.6GiBまで縮小され、ローカル環境でも容易に運用できる。発表元は今回のオープンソース化を「基礎モデルの事前訓練を誰でも手軽に行えるようにする試み」と位置付けており、従来は計算コストの面から頭脳集団を擁する大規模研究機関しか自力での事前訓練を実施できなかった状況を変えるものと期待されている。