DeepSeek发布NSA:加速长上下文训练与推理
近日,DeepSeek宣布推出NSA,这是一种专为加速长上下文训练和推理而设计的稀疏注意力机制。NSA的特点是高度兼容硬件,并且在保持性能的同时,显著提升了训练和推理速度,降低了预训练成本。
DeepSeek的研究人员表示,NSA在一般基准测试、长上下文任务和基于指令的推理中,展现出了与完全注意力模型相当,甚至更优的性能。通过对现实世界语言语料库的深入实验,研究团队验证了NSA的有效性。实验结果表明,NSA不仅实现了与Full Attention基线相当的性能,还在某些情况下取得了更为出色的表现,同时超越了现有的稀疏注意力方法。
NSA的发布标志着DeepSeek在推动人工智能技术发展上的又一重要里程碑。随着NSA的广泛应用,预计将大幅提升自然语言处理领域的效率和性能,为开发者们带来更加快速和灵活的解决方案。