Cohere lança o Command A+, seu modelo flagship de código aberto: 219 bilhões de parâmetros tipo MoE, executável em duas GPUs H100.

ref · 21 Maio , 2026 02:19

Em 20 de maio, a Cohere lançou o Command A+, disponibilizando-o como código aberto sob a licença Apache 2.0 — este é o primeiro modelo principal da empresa a ser distribuído com essa licença tão flexível. O CEO Aidan Gomez e o cofundador Nick Frosst confirmaram pessoalmente esse marco importante. O modelo utiliza uma arquitetura de especialistas mistos (MoE), possui 219 bilhões de parâmetros no total, porém apenas 25 bilhões são ativados por inferência; ele permite alta performance em sistemas com no mínimo duas GPUs H100 ou uma GPU B200. Além disso, suporta janelas de contexto de até 128 mil tokens, 48 idiomas e capacidades multimodais de texto e imagem; o HuggingFace Transformers também passou a oferecer suporte nativo no mesmo dia. Quanto à quantização, o Command A+ aplica apenas quantização de 4 bits (W4A4) nas partes correspondentes aos especialistas MoE, mantendo a precisão integral nas rotas de atenção; aliada à técnica de Distilação Consciente da Quantização (Quantization-Aware Distillation), essa abordagem garante uma compressão quase sem perdas. Em cenários de baixa concorrência, a velocidade de geração alcança 375 tokens por segundo, enquanto o tempo de latência até o primeiro token (TTFT) é de 113 milissegundos — números que representam um aumento de cerca de 63% na velocidade e redução de aproximadamente 17% na latência em relação ao modelo anterior, o Command A Reasoning.

Em termos de arquitetura, pesquisadores identificaram diversas características pouco convencionais no Command A+: os blocos de atenção e as camadas MoE são calculados paralelamente; a dimensão total dos vetores de consulta equivale a quatro vezes a largura da camada oculta; o uso do LayerNorm em vez do RMSNorm; além disso, o modelo conta com apenas 32 camadas e não inclui nenhuma camada densa prévia. No que diz respeito a funcionalidades corporativas, o modelo suporta nativamente chamadas a ferramentas e tarefas baseadas em agentes inteligentes; também incorpora mecanismos de rastreamento de fontes (grounding span), permitindo indicar diretamente nos resultados os documentos ou linhas de bancos de dados utilizados na busca — aspecto de extrema relevância para setores regulamentados como finanças, saúde e jurídico. Paralelamente, a Cohere disponibiliza diversas versões quantizadas do modelo e o serviço de inferência hospedado Model Vault. Em sua publicação de lançamento, Nick Frosst deixou claro que a decisão de adotar a licença Apache 2.0 está diretamente ligada a recentes parcerias firmadas com empresas alemãs.

Blog da Cohere | HuggingFace

Tópico	Respostas	Vistas
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	2	1 Junho , 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	22 Maio , 2026
智谱 GLM-5.1 高速版 API 上线，400 tokens/s 声称刷新全球大模型速度上限常规 ai , 大模型 , 智谱 , glm , 推理速度	6	22 Maio , 2026
Cursor 发布 Composer 2.5，合成训练规模是上代 25 倍常规 ai , cursor , composer , 编程工具 , spacexai	3	19 Maio , 2026
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	8	21 Maio , 2026

Cohere lança o Command A+, seu modelo flagship de código aberto: 219 bilhões de parâmetros tipo MoE, executável em duas GPUs H100.

Related topics