华为在 AI 大模型领域又放大招了!其最新推出的盘古 Ultra MoE 模型,参数规模达到 7180 亿,是全流程在昇腾 AI 计算平台上训练的 “准万亿 MoE 模型”。同时发布的还有盘古 Pro MoE 系列模型,这不仅标志着华为完成了 “国产算力 + 国产模型” 的全流程自主可控训练,更让国产 AI 基础设施的自主创新能力得到了业界认可。
训练超大规 MoE 模型可不是件容易事,尤其是其极高的稀疏性,很容易导致训练不稳定。但华为盘古团队在模型架构和训练方法上玩起了创新:提出 DSSN 稳定架构和 TinyInit 小初始化方法,实现了 18TB 以上数据的长期稳定训练;设计 EP loss 负载优化方法,让专家间负载更均衡,领域特化能力也更强;采用 MLA 和 MTP 架构,搭配 Dropless 训练策略,平衡了模型效果与效率。

训练方法上的突破同样亮眼。华为团队首次在昇腾 CloudMatrix 384 超节点上,打通大稀疏比 MoE 强化学习后训练框架关键技术,让 RL 后训练进入超节点集群时代。不到一个月时间,他们还对预训练系统加速技术进行迭代升级,通过自适应流水掩盖、内存优化等策略,将万卡集群预训练 MFU 从 30% 大幅提升至 41%。
值得一提的是,参数仅 720 亿的盘古 Pro MoE 大模型,凭借动态启动专家网络的设计,性能竟能媲美千亿级模型,在 SuperCLUE 2025 年 5 月排行榜上,位居千亿参数以内大模型国内并列第一。