深圳联合华为昇腾910C集群完成 1.6 万亿参数 DeepSeek-V4-Pro 全参数后训练，国产算力突破训练瓶颈

ref · 2026 年6 月 5 日 15:08

深圳河套学院联合哈尔滨工业大学（深圳）、深圳市大数据研究院与华为团队近日宣布，依托搭载华为昇腾910C芯片的千卡级集群（深智城AI算力平台），完成了1.6万亿参数大模型 DeepSeek-V4-Pro 的全参数后训练，整个训练历时逾1500步，零中断、零报错。参与团队称，这是全球第三方机构首次在国产算力平台上完成该参数规模模型的训练探索，印证了国产AI芯片可支撑世界级超大参数模型训练；关键指标方面，算力利用率（MFU）超过30%，核心训练算子效率提升14%，均达到工业级运行标准。

长期以来，国产算力在大模型领域主要承担推理与小幅微调任务，而全参数后训练所需的算力规模和跨芯片通信量远超推理场景——尤其 DeepSeek-V4-Pro 采用混合专家（MoE）架构，后训练时专家间通信量约为普通模型的数十倍。团队为此攻克三个核心难题：其一，设计精密分布式承载方案，将1.6万亿参数像"拼图"般分配至千卡集群；其二，优化 MoE 调度策略，消除专家间负载不均与跨卡通信瓶颈；其三，搭建全程可视可控监控体系，保障超长步数训练稳定运行。相较于调用现成模型做推理，全参数后训练要求模型"自我反思并动态调整参数"，计算量与通信量骤然倍增。本次攻关同步设有人才培养任务，42名学生全程深度参与工程实战。

SCMP | 深圳发布

话题	回复	浏览量
阿里千问发布 Qwen3.7-Max，智能体旗舰，自主执行 35 小时常规 ai , 大模型 , qwen , 智能体 , 阿里巴巴	6	2026 年5 月 20 日
华为郑俊：中国模型调用量已超美国，国产大模型生态具备全球领先竞争力常规 ai , 大模型 , 华为 , 金融科技 , 算力	2	2026 年5 月 27 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	11	2026 年5 月 21 日
中国信息安全测评中心认证 9 款国产 AI 芯片通过政府采购安全可靠测评，华为、阿里、壁仞、海光等悉数入列常规华为 , 政府采购	6	2026 年5 月 29 日
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	5	2026 年6 月 1 日

深圳联合华为昇腾910C集群完成 1.6 万亿参数 DeepSeek-V4-Pro 全参数后训练，国产算力突破训练瓶颈

相关话题