DeepSeek发布DeepGEMM开源项目,提升V3/R1训练和推理效率
DeepSeek近日宣布,其第三个开源项目DeepGEMM正式发布。DeepGEMM是一个用于FP8格式的GEMM(General Matrix Multiplication)库,专为V3/R1架构的训练和推理优化。该库支持密集布局和两种MoE(Mixture of Experts)布局,并具备即时编译功能,能够在大多数矩阵大小上提供优于专家调优的内核性能。DeepSeek表示,DeepGEMM的核心逻辑简洁高效,仅需约300行代码,为开发者提供了强大的性能优化工具。