Le 20 mai, Sapient Intelligence (Singapour) et ses collaborateurs du MIT ont publié l’article sur HRM-Text, tout en mettant à disposition gratuitement les poids du modèle ainsi que le cadre d’entraînement complet sur GitHub et HuggingFace. Basé sur l’architecture du « Modèle de Raisonnement Hiérarchique » (HRM), HRM-Text remplace la propagation avant unique des Transformers classiques par une conception récursive à deux échelles temporelles : les modules supérieurs assurent une planification abstraite lente, tandis que les modules inférieurs effectuent des calculs rapides et granulaires ; ces derniers se recurent mutuellement dans un espace latent continu pour produire enfin la sortie, ce qui permet d’atteindre une profondeur de calcul quasi infinie avec un nombre de paramètres constant. La version XL dotée d’un milliard de paramètres a été entraînée pendant environ 46 heures sur quelque 40 milliards de tokens valides (sur deux nœuds équipés de 16 GPU H100 chacun, pour un coût d’environ 1 472 dollars) et obtient respectivement 60,7 % au test MMLU, 84,5 % à GSM8K, 81,9 % à ARC-Challenge et 56,2 % à MATH. Quant à la variante L (TRM) comptant 600 millions de paramètres, elle a été entraînée pour seulement 800 dollars et surpasse, sur plusieurs benchmarks dérivés, les modèles de 3 milliards de paramètres entraînés selon la méthode Transformer standard.
En matière de données d’entraînement, HRM-Text n’utilise qu’environ 40 milliards de tokens structurés, soit entre cent et mille fois moins que les volumes employés dans les pré-entraînements dominants (qui oscillent entre 4 et 36 billions de tokens). Cette approche permet d’économiser entre 130 et 600 fois en calcul et entre 150 et 900 fois en quantité de données. Les ressources mises en open source comprennent des outils d’extraction de données, un emballage séquentiel PrefixLM, un système d’entraînement distribué PyTorch FSDP2, le noyau FlashAttention 3 ainsi que des utilitaires de conversion de checkpoints ; actuellement, cette suite ne fonctionne que sur les GPU de la gamme Hopper (H100/H800). Il convient de noter que les poids disponibles correspondent uniquement à la phase de pré-entraînement et n’ont pas encore fait l’objet de fine-tuning par instructions ni d’alignement RLHF ; ils ne permettent donc que la continuation de texte à partir d’un préfixe. Une fois quantifiés en int4, ces modèles occupent environ 0,6 Go de mémoire et peuvent être exécutés localement. Pour Sapient Intelligence, cette libération gratuite constitue une illustration concrète de la « démocratisation du pré-entraînement des modèles de base » : jusqu’à présent, en raison des coûts de calcul, seuls les grands laboratoires pouvaient se permettre de réaliser un pré-entraînement de zéro.