Cohere 开源旗舰 Command A+,219B MoE,双 H100 可运行

Cohere 5 月 20 日发布 Command A+,并以 Apache 2.0 许可证完全开源——这是该公司有史以来首款以此宽松协议发布的旗舰模型,CEO Aidan Gomez 和联合创始人 Nick Frosst 均亲自确认了这一里程碑决策。模型采用混合专家(MoE)架构,总参数量 219B,每次推理仅激活 25B,可在最少 2 张 H100 GPU 或 1 张 B200 GPU 上完成高性能推理;支持 128K 上下文窗口、48 种语言,具备文本与图像多模态能力,HuggingFace Transformers 同日提供原生支持。量化方面,Command A+ 仅对 MoE 专家部分进行 4-bit 量化(W4A4),注意力路径保持全精度,结合量化感知蒸馏(Quantization-Aware Distillation)实现近乎无损压缩;低并发场景下输出速度达 375 tokens/秒,首字节延迟(TTFT)113 毫秒,相较上一代 Command A Reasoning 模型输出速度提升约 63%,延迟降低约 17%。

架构层面,研究者发现 Command A+ 有多项反常规设计:注意力与 MoE 层并行计算(parallel transformer block)、查询向量总维度为隐层宽度的 4 倍、采用 LayerNorm 而非 RMSNorm、仅 32 层且无前置稠密层。企业功能方面,模型原生支持工具调用与 Agentic 任务,并内置引用溯源(grounding span)机制——检索外部内容时可在输出中直接标注来源文档或数据库行,这对金融、医疗和法律等受监管行业尤为关键。Cohere 同步提供多种量化版权重和 Model Vault 托管推理服务。Nick Frosst 在发布帖子中暗示 Apache 2.0 决策与近期和德国企业伙伴的合作直接相关。

Cohere Blog | HuggingFace