Le 20 mai, Cohere a lancé Command A+, entièrement open source sous la licence Apache 2.0 — il s’agit du premier modèle phare de l’entreprise publié selon ce contrat si souple. Cette décision historique a été confirmée par le PDG Aidan Gomez et le cofondateur Nick Frosst. Ce modèle repose sur une architecture à experts mixtes (MoE) : sa taille totale est de 219 milliards de paramètres, mais seuls 25 milliards sont activés lors de chaque inférence. Il permet d’obtenir des performances élevées avec au minimum deux GPU H100 ou un seul GPU B200. Il supporte une fenêtre de contexte de 128 000 tokens, 48 langues, ainsi que les capacités multimodales texte/ image ; la bibliothèque HuggingFace Transformers propose également dès aujourd’hui un support natif. Concernant la quantification, Command A+ ne quantifie en 4 bits (W4A4) que les parties expertes du système MoE, tandis que les chemins d’attention restent en précision totale ; grâce à la distillation consciente de la quantification, la compression se fait quasiment sans perte. Dans les scénarios à faible charge, la vitesse de génération atteint 375 tokens/seconde, avec un temps de latence jusqu’au premier token (TTFT) de 113 millisecondes. Par rapport au modèle précédent Command A Reasoning, la vitesse augmente d’environ 63 % et la latence diminue d’environ 17 %.
Sur le plan architectural, les chercheurs ont remarqué plusieurs particularités inhabituelles chez Command A+ : les blocs d’attention et les couches MoE sont calculés en parallèle, la dimension totale des vecteurs de requête équivaut à quatre fois la largeur des couches cachées, on utilise du LayerNorm plutôt que du RMSNorm, et le modèle ne comporte que 32 couches sans couches denses préliminaires. En matière de fonctionnalités professionnelles, le modèle prend nativement en charge l’appel d’outils et les tâches d’Agentic ; il intègre aussi un mécanisme de traçage des sources (grounding span) qui permet d’indiquer directement dans les réponses les documents ou lignes de base de données utilisés pour la recherche. Cela revêt une importance capitale dans des secteurs fortement réglementés comme la finance, la santé ou le droit. Cohere met en outre à disposition divers poids quantifiés ainsi qu’un service d’inférence hébergé via Model Vault. Dans son billet de présentation, Nick Frosst a laissé entendre que la décision d’opter pour la licence Apache 2.0 était étroitement liée aux récentes collaborations avec des entreprises allemandes.