DeepSeek 开源高效 MLA 解码内核 FlashMLA,为 Hopper GPU 提供优化支持

DeepSeek 今日宣布,将逐步开源多个代码库,首开先河的是专为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA。该代码库针对可变长度序列进行了深度优化,并已在生产环境中投入使用。FlashMLA 特别针对多层注意力机制进行了性能提升,能够显著加速 LLM 的解码过程,从而提高模型的响应速度和计算吞吐量。据 DeepSeek 透露,FlashMLA 在 H800 芯片上实现了高达 3000GB/s 的带宽和 580 TFLOPS 的计算能力。这一开源举措将有助于开发者们更好地利用 Hopper GPU 的强大性能,推动人工智能技术的发展。