小米开源 MiMo-V2.5 全模态模型，1.02T 参数 Pro 版自主完成 PKU 编译器课设满分

ref

小米 MiMo 团队 4 月 22 日发布并即将开源 MiMo-V2.5 系列模型，覆盖 V2.5（310B 总参数 / 15B 激活）与 V2.5-Pro（1.02T 总参数 / 42B 激活）两档稀疏 MoE 架构，原生支持文本、图像、视频、音频四模态，最长上下文 1M token。模型基于 MiMo-V2-Flash 主干扩展专属视觉编码器（729M 参数 ViT，28 层中 24 层 SWA + 4 层全注意力）与音频编码器（261M 参数，从 MiMo-Audio 权重初始化），保留 Hybrid Attention 5:1 比例与 128 滑动窗口设计——KV 缓存较常规模型缩减近 6 倍。预训练总量约 48T token、采用 FP8 混合精度，Post-train 阶段上下文从 32K 渐进扩展至 1M，并引入 SFT、大规模 Agentic RL 与 Multi-Teacher On-Policy Distillation（MOPD）训练。MiMo-V2.5-Pro 已在 API 平台、AI Studio 等界面全量上线，价格不变，模型 tag 替换为 mimo-v2.5-pro 即可调用。

实测层面，团队公开三项长程任务结果以演示 V2.5-Pro 的"线束感知"能力：在北京大学《编译原理》课设的 SysY 编译器 Rust 实现任务中（人类 PKU CS 学生通常需数周完成），模型用 4.3 小时、672 次工具调用从零完成全部六层（词法/语法分析、AST、Koopa IR、RISC-V 后端、性能优化），通过课程隐藏测试集 233/233 满分；冷启动首次编译即过 137 项（59%），第 512 轮重构回退两项后自主诊断恢复。第二项任务从几句简短 prompt 出发，经 11.5 小时、1,868 次工具调用，端到端生成 8,192 行代码的桌面视频编辑器，含多轨时间线、剪辑、交叉淡入、音频混合与导出。第三项则将 V2.5-Pro 接入 ngspice 仿真闭环（以 Claude Code 作为线束），约 1 小时内为 TSMC 180nm 工艺设计并优化 FVF-LDO 模拟电路，相位裕度等四项指标较初稿提升一个数量级。在 ClawEval 上，V2.5-Pro 以约 70K token/轨迹达到 64% Pass^3，token 消耗较 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 同档分别低 40%–60%。

Xiaomi MiMo | HuggingFace | 小米 MiMo API 平台

WeLinux

小米开源 MiMo-V2.5 全模态模型，1.02T 参数 Pro 版自主完成 PKU 编译器课设满分

MiMo-V2.5-Pro | Xiaomi

XiaomiMiMo/MiMo-V2.5 · Hugging Face

Xiaomi MiMo Api Open Platform - Token Plan Global Launch