HRM-Textがオープンソース化！階層的再帰構造を持つ10億パラメータモデルの事前学習にかかる費用は約1,500ドルのみ

ref · 2026 年 5 月 20 日午後 2:09

Sapient Intelligence（シンガポール）とマサチューセッツ工科大学の共同研究チームは5月20日にHRM-Textに関する論文を公開し、同時にGitHubおよびHuggingFaceにてモデルの重みや完全な訓練フレームワークもオープンソース化した。HRM-Textは「階層型推論モデル」（HRM）のアーキテクチャを基盤としており、標準的なTransformerの単回前方向伝播処理に代わり、二つの時間スケールを持つ再帰構造を採用している。すなわち、上位層モジュールがゆっくりとした抽象的な計画を立案し、下位層モジュールが素早い細粒度計算を実行。両者が連続潜在空間内で入れ子状に再帰した後に出力が得られる仕組みで、これにより固定されたパラメータ数でもほぼ無限の計算深さを実現している。パラメータ数が10億個のXL版は約400億個の有効トークンを用いて約46時間訓練され（H100を16枚搭載した2ノード構成で、費用は約1,472米ドル）、MMLUで60.7％、GSM8Kで84.5％、ARC-Challengeで81.9％、MATHで56.2％という性能を示した。一方、パラメータ数が6億個のL（TRM）バリアントは約800米ドルのコストで訓練が完了しており、複数の下流ベンチマークにおいて標準的なTransformerで訓練された30億パラメータ級のモデルを上回る結果となった。

訓練データに関しては、HRM-Textは約400億個の構造化トークンのみを利用しており、現在主流の事前訓練手法（4000億～36000億トークン使用）と比べるとその量は100分の1から1000分の1程度。計算量は130倍から600倍、データ量は150倍から900倍削減されている。オープンソース化されたコンテンツにはデータ抽出ツール、PrefixLMによるシーケンスパッキング機能、PyTorch FSDP2による分散訓練環境、FlashAttention 3カーネル、チェックポイント変換ツールなどが含まれており、現時点ではHopperアーキテクチャを備えたGPU（H100/H800）のみに対応している。なお、公開済みの重みは純粋な事前訓練版であり、指示微調整やRLHFによる整合化はまだ行われていないため、プリフィックスによるテキスト生成のみ可能となる。int4形式に量子化するとモデルサイズは約0.6GiBまで縮小され、ローカル環境でも容易に運用できる。発表元は今回のオープンソース化を「基礎モデルの事前訓練を誰でも手軽に行えるようにする試み」と位置付けており、従来は計算コストの面から頭脳集団を擁する大規模研究機関しか自力での事前訓練を実施できなかった状況を変えるものと期待されている。

GitHub | HuggingFace | PRNewswire

トピック	返信	表示
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	2026 年 5 月 22 日
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	3	2026 年 6 月 1 日
Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位常规开源 , qwen , 视频理解 , 视觉语言模型 , marlin	19	2026 年 5 月 20 日
GRAM：将递归推理概率化，10M 参数 ARC-AGI-1 达 52% 常规 ai , 研究 , 递归推理 , gram , arc-agi	5	2026 年 5 月 20 日
智谱 GLM-5.1 高速版 API 上线，400 tokens/s 声称刷新全球大模型速度上限常规 ai , 大模型 , 智谱 , glm , 推理速度	6	2026 年 5 月 22 日

HRM-Textがオープンソース化！階層的再帰構造を持つ10億パラメータモデルの事前学習にかかる費用は約1,500ドルのみ

関連トピック