Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行

ref · 2026 年5 月 21 日 02:19

Cohere 5 月 20 日发布 Command A+，并以 Apache 2.0 许可证完全开源——这是该公司有史以来首款以此宽松协议发布的旗舰模型，CEO Aidan Gomez 和联合创始人 Nick Frosst 均亲自确认了这一里程碑决策。模型采用混合专家（MoE）架构，总参数量 219B，每次推理仅激活 25B，可在最少 2 张 H100 GPU 或 1 张 B200 GPU 上完成高性能推理；支持 128K 上下文窗口、48 种语言，具备文本与图像多模态能力，HuggingFace Transformers 同日提供原生支持。量化方面，Command A+ 仅对 MoE 专家部分进行 4-bit 量化（W4A4），注意力路径保持全精度，结合量化感知蒸馏（Quantization-Aware Distillation）实现近乎无损压缩；低并发场景下输出速度达 375 tokens/秒，首字节延迟（TTFT）113 毫秒，相较上一代 Command A Reasoning 模型输出速度提升约 63%，延迟降低约 17%。

架构层面，研究者发现 Command A+ 有多项反常规设计：注意力与 MoE 层并行计算（parallel transformer block）、查询向量总维度为隐层宽度的 4 倍、采用 LayerNorm 而非 RMSNorm、仅 32 层且无前置稠密层。企业功能方面，模型原生支持工具调用与 Agentic 任务，并内置引用溯源（grounding span）机制——检索外部内容时可在输出中直接标注来源文档或数据库行，这对金融、医疗和法律等受监管行业尤为关键。Cohere 同步提供多种量化版权重和 Model Vault 托管推理服务。Nick Frosst 在发布帖子中暗示 Apache 2.0 决策与近期和德国企业伙伴的合作直接相关。

Cohere Blog | HuggingFace

话题	回复	浏览量
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	2	2026 年6 月 1 日
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	2026 年5 月 22 日
智谱 GLM-5.1 高速版 API 上线，400 tokens/s 声称刷新全球大模型速度上限常规 ai , 大模型 , 智谱 , glm , 推理速度	6	2026 年5 月 22 日
Cursor 发布 Composer 2.5，合成训练规模是上代 25 倍常规 ai , cursor , composer , 编程工具 , spacexai	3	2026 年5 月 19 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	8	2026 年5 月 21 日

Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行

相关话题