小米开源 MiMo-V2.5 全模态模型,1.02T 参数 Pro 版自主完成 PKU 编译器课设满分
-
小米 MiMo 团队 4 月 22 日发布并即将开源 MiMo-V2.5 系列模型,覆盖 V2.5(310B 总参数 / 15B 激活)与 V2.5-Pro(1.02T 总参数 / 42B 激活)两档稀疏 MoE 架构,原生支持文本、图像、视频、音频四模态,最长上下文 1M token。模型基于 MiMo-V2-Flash 主干扩展专属视觉编码器(729M 参数 ViT,28 层中 24 层 SWA + 4 层全注意力)与音频编码器(261M 参数,从 MiMo-Audio 权重初始化),保留 Hybrid Attention 5:1 比例与 128 滑动窗口设计——KV 缓存较常规模型缩减近 6 倍。预训练总量约 48T token、采用 FP8 混合精度,Post-train 阶段上下文从 32K 渐进扩展至 1M,并引入 SFT、大规模 Agentic RL 与 Multi-Teacher On-Policy Distillation(MOPD)训练。MiMo-V2.5-Pro 已在 API 平台、AI Studio 等界面全量上线,价格不变,模型 tag 替换为
mimo-v2.5-pro即可调用。实测层面,团队公开三项长程任务结果以演示 V2.5-Pro 的"线束感知"能力:在北京大学《编译原理》课设的 SysY 编译器 Rust 实现任务中(人类 PKU CS 学生通常需数周完成),模型用 4.3 小时、672 次工具调用从零完成全部六层(词法/语法分析、AST、Koopa IR、RISC-V 后端、性能优化),通过课程隐藏测试集 233/233 满分;冷启动首次编译即过 137 项(59%),第 512 轮重构回退两项后自主诊断恢复。第二项任务从几句简短 prompt 出发,经 11.5 小时、1,868 次工具调用,端到端生成 8,192 行代码的桌面视频编辑器,含多轨时间线、剪辑、交叉淡入、音频混合与导出。第三项则将 V2.5-Pro 接入 ngspice 仿真闭环(以 Claude Code 作为线束),约 1 小时内为 TSMC 180nm 工艺设计并优化 FVF-LDO 模拟电路,相位裕度等四项指标较初稿提升一个数量级。在 ClawEval 上,V2.5-Pro 以约 70K token/轨迹达到 64% Pass^3,token 消耗较 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 同档分别低 40%–60%。
Xiaomi MiMo | HuggingFace | 小米 MiMo API 平台
XiaomiMiMo/MiMo-V2.5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
(huggingface.co)
Xiaomi MiMo Api Open Platform - Token Plan Global Launch
One-time purchase unlocks both MiMo-V2-Pro and Omni flagship models, plus TTS model free across all tiers for a limited time. Unleash powerful productivity with Xiaomi MiMo
(platform.xiaomimimo.com)