深圳河套学院联合哈尔滨工业大学(深圳)、深圳市大数据研究院与华为团队近日宣布,依托搭载华为昇腾910C芯片的千卡级集群(深智城AI算力平台),完成了1.6万亿参数大模型 DeepSeek-V4-Pro 的全参数后训练,整个训练历时逾1500步,零中断、零报错。参与团队称,这是全球第三方机构首次在国产算力平台上完成该参数规模模型的训练探索,印证了国产AI芯片可支撑世界级超大参数模型训练;关键指标方面,算力利用率(MFU)超过30%,核心训练算子效率提升14%,均达到工业级运行标准。
长期以来,国产算力在大模型领域主要承担推理与小幅微调任务,而全参数后训练所需的算力规模和跨芯片通信量远超推理场景——尤其 DeepSeek-V4-Pro 采用混合专家(MoE)架构,后训练时专家间通信量约为普通模型的数十倍。团队为此攻克三个核心难题:其一,设计精密分布式承载方案,将1.6万亿参数像"拼图"般分配至千卡集群;其二,优化 MoE 调度策略,消除专家间负载不均与跨卡通信瓶颈;其三,搭建全程可视可控监控体系,保障超长步数训练稳定运行。相较于调用现成模型做推理,全参数后训练要求模型"自我反思并动态调整参数",计算量与通信量骤然倍增。本次攻关同步设有人才培养任务,42名学生全程深度参与工程实战。