Kimi 开源 MoE 模型 Moonlight-16B-A3B,展示 Muon 优化器的高效性
近日,Kimi 公司宣布开源其最新研发的多专家模型(MoE)Moonlight-16B-A3B,并发布技术报告详细介绍了该模型的训练过程和优化器 Muon 的应用。Muon 优化器是 Kimi 团队在 AdamW 基础上进行深度改造的成果,它在 Moonlight-16B-A3B 的训练中展现出卓越的效率,训练效率是 AdamW 的两倍,且模型性能相当。
根据技术报告,Moonlight-16B-A3B 模型拥有 15.29B 的总参数量和 2.24B 的激活参数。在 5.7T Tokens 的训练数据下,Muon 优化器成功驱动模型达到预期性能。这一成就不仅证明了 Muon 优化器在大规模训练中的有效性,也为自然语言处理领域的技术进步提供了新的参考。
Kimi 此次的开源行为,不仅展示了其在 MoE 模型和优化器技术上的领先地位,也为研究者和开发者们提供了一个强大的研究平台。随着 Moonlight-16B-A3B 的开源,预计将会有更多的创新应用和研究基于此模型展开,推动人工智能技术的发展。