HRM-Text est désormais open source : le pré-entraînement d’un modèle récursif hiérarchique de 1 milliard de paramètres ne coûte qu’environ 1 500 $.

ref · Mai 20, 2026, 2:09

Le 20 mai, Sapient Intelligence (Singapour) et ses collaborateurs du MIT ont publié l’article sur HRM-Text, tout en mettant à disposition gratuitement les poids du modèle ainsi que le cadre d’entraînement complet sur GitHub et HuggingFace. Basé sur l’architecture du « Modèle de Raisonnement Hiérarchique » (HRM), HRM-Text remplace la propagation avant unique des Transformers classiques par une conception récursive à deux échelles temporelles : les modules supérieurs assurent une planification abstraite lente, tandis que les modules inférieurs effectuent des calculs rapides et granulaires ; ces derniers se recurent mutuellement dans un espace latent continu pour produire enfin la sortie, ce qui permet d’atteindre une profondeur de calcul quasi infinie avec un nombre de paramètres constant. La version XL dotée d’un milliard de paramètres a été entraînée pendant environ 46 heures sur quelque 40 milliards de tokens valides (sur deux nœuds équipés de 16 GPU H100 chacun, pour un coût d’environ 1 472 dollars) et obtient respectivement 60,7 % au test MMLU, 84,5 % à GSM8K, 81,9 % à ARC-Challenge et 56,2 % à MATH. Quant à la variante L (TRM) comptant 600 millions de paramètres, elle a été entraînée pour seulement 800 dollars et surpasse, sur plusieurs benchmarks dérivés, les modèles de 3 milliards de paramètres entraînés selon la méthode Transformer standard.

En matière de données d’entraînement, HRM-Text n’utilise qu’environ 40 milliards de tokens structurés, soit entre cent et mille fois moins que les volumes employés dans les pré-entraînements dominants (qui oscillent entre 4 et 36 billions de tokens). Cette approche permet d’économiser entre 130 et 600 fois en calcul et entre 150 et 900 fois en quantité de données. Les ressources mises en open source comprennent des outils d’extraction de données, un emballage séquentiel PrefixLM, un système d’entraînement distribué PyTorch FSDP2, le noyau FlashAttention 3 ainsi que des utilitaires de conversion de checkpoints ; actuellement, cette suite ne fonctionne que sur les GPU de la gamme Hopper (H100/H800). Il convient de noter que les poids disponibles correspondent uniquement à la phase de pré-entraînement et n’ont pas encore fait l’objet de fine-tuning par instructions ni d’alignement RLHF ; ils ne permettent donc que la continuation de texte à partir d’un préfixe. Une fois quantifiés en int4, ces modèles occupent environ 0,6 Go de mémoire et peuvent être exécutés localement. Pour Sapient Intelligence, cette libération gratuite constitue une illustration concrète de la « démocratisation du pré-entraînement des modèles de base » : jusqu’à présent, en raison des coûts de calcul, seuls les grands laboratoires pouvaient se permettre de réaliser un pré-entraînement de zéro.

GitHub | HuggingFace | PRNewswire

Sujet	Réponses	Vues
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	Mai 22, 2026
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	3	Juin 1, 2026
Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位常规开源 , qwen , 视频理解 , 视觉语言模型 , marlin	19	Mai 20, 2026
GRAM：将递归推理概率化，10M 参数 ARC-AGI-1 达 52% 常规 ai , 研究 , 递归推理 , gram , arc-agi	5	Mai 20, 2026
智谱 GLM-5.1 高速版 API 上线，400 tokens/s 声称刷新全球大模型速度上限常规 ai , 大模型 , 智谱 , glm , 推理速度	6	Mai 22, 2026

HRM-Text est désormais open source : le pré-entraînement d’un modèle récursif hiérarchique de 1 milliard de paramètres ne coûte qu’environ 1 500 $.

Sujets connexes

HRM-Text est désormais open source : le pré-entraînement d’un modèle récursif hiérarchique de 1 milliard de paramètres ne coûte qu’environ 1 500 $.