Cohere lança o Command A+, seu modelo flagship de código aberto: 219 bilhões de parâmetros tipo MoE, executável em duas GPUs H100.

Em 20 de maio, a Cohere lançou o Command A+, disponibilizando-o como código aberto sob a licença Apache 2.0 — este é o primeiro modelo principal da empresa a ser distribuído com essa licença tão flexível. O CEO Aidan Gomez e o cofundador Nick Frosst confirmaram pessoalmente esse marco importante. O modelo utiliza uma arquitetura de especialistas mistos (MoE), possui 219 bilhões de parâmetros no total, porém apenas 25 bilhões são ativados por inferência; ele permite alta performance em sistemas com no mínimo duas GPUs H100 ou uma GPU B200. Além disso, suporta janelas de contexto de até 128 mil tokens, 48 idiomas e capacidades multimodais de texto e imagem; o HuggingFace Transformers também passou a oferecer suporte nativo no mesmo dia. Quanto à quantização, o Command A+ aplica apenas quantização de 4 bits (W4A4) nas partes correspondentes aos especialistas MoE, mantendo a precisão integral nas rotas de atenção; aliada à técnica de Distilação Consciente da Quantização (Quantization-Aware Distillation), essa abordagem garante uma compressão quase sem perdas. Em cenários de baixa concorrência, a velocidade de geração alcança 375 tokens por segundo, enquanto o tempo de latência até o primeiro token (TTFT) é de 113 milissegundos — números que representam um aumento de cerca de 63% na velocidade e redução de aproximadamente 17% na latência em relação ao modelo anterior, o Command A Reasoning.

Em termos de arquitetura, pesquisadores identificaram diversas características pouco convencionais no Command A+: os blocos de atenção e as camadas MoE são calculados paralelamente; a dimensão total dos vetores de consulta equivale a quatro vezes a largura da camada oculta; o uso do LayerNorm em vez do RMSNorm; além disso, o modelo conta com apenas 32 camadas e não inclui nenhuma camada densa prévia. No que diz respeito a funcionalidades corporativas, o modelo suporta nativamente chamadas a ferramentas e tarefas baseadas em agentes inteligentes; também incorpora mecanismos de rastreamento de fontes (grounding span), permitindo indicar diretamente nos resultados os documentos ou linhas de bancos de dados utilizados na busca — aspecto de extrema relevância para setores regulamentados como finanças, saúde e jurídico. Paralelamente, a Cohere disponibiliza diversas versões quantizadas do modelo e o serviço de inferência hospedado Model Vault. Em sua publicação de lançamento, Nick Frosst deixou claro que a decisão de adotar a licença Apache 2.0 está diretamente ligada a recentes parcerias firmadas com empresas alemãs.

Blog da Cohere | HuggingFace