智源研究院发布DeepSeek-R1多芯片版本,推动大模型统一技术栈与开源生态

智源研究院近日宣布,基于其开源的统一软硬件技术栈FlagOS,成功开发并开源了DeepSeek-R1模型的多芯片版本。这一发布标志着在推动大模型在不同芯片上的高效部署和应用方面取得了重要进展。

DeepSeek-R1模型因其低训练成本和比肩一流模型的性能表现,自发布以来备受关注。随着部署和应用场景的迅速增长,对推理计算能力的需求也随之剧增。智源研究院联合多家芯片厂商,通过FlagOS实现了DeepSeek-R1模型在多种AI芯片上的适配和应用,旨在打破生态壁垒和算力束缚,构建多元芯片的统一技术栈和开源软硬件生态。

此次发布的DeepSeek-R1多芯片版本具有以下显著特点:

1. **代码统一**:使用同一套开源代码和底层框架,实现了不同AI芯片架构的DeepSeek-R1推理,促进了生态的统一和开放。

2. **效果对齐**:智源研究院通过科学严谨的方法,确保在不同芯片架构上的DeepSeek-R1版本与原始英伟达版本的效果对齐,保证了模型的性能和质量。

3. **开源开放**:多芯片版本的源代码、模型文件和运行镜像文件均已开放到GitHub/Gitee、HuggingFace和魔搭等平台,方便了广大开发者和用户的获取和使用。

4. **高效易用**:依托FlagOS的分布式训推框架FlagScale和大模型通用算子库FlagGems,用户可以一键部署DeepSeek-R1模型服务和自动分布式推理调优能力,同时提供与OpenAI兼容的API,极大简化了使用流程和提升了部署效率。

FlagOS是由智源研究院牵头,与多个厂商共同打造的面向多元AI芯片的统一、开源系统软件技术栈,包括高效并行训推框架FlagScale、高性能算子库FlagAttention和FlagGems,以及统一通信库FlagCX等关键技术。FlagOS旨在为用户提供在各种AI芯片上的统一、开源、高效、易用的系统软件,从而打破算力束缚。

基于FlagOS的DeepSeek-R1多芯片版本,能够一键启动FlagScale实现6700亿参数大模型跨芯片的并行推理,支持用户根据需求灵活选择算力组合,自动实现并行推理计算优化。FlagScale会根据不同AI芯片的计算能力自动优化分布式并行策略,确保资源分配最优化和高效利用,提升整体部署性能。

目前,首批完成的5种不同厂商的AI芯片支持,更多AI芯片支持将于近期陆续上线开源。同时,以FlagOS技术栈为基础,未来将支持更多优秀大模型在多种AI芯片上的版本发布。

在性能评测方面,基于FlagOS的DeepSeek-R1多芯片版本在准确性上可全面对齐使用英伟达H100的模型性能。DeepSeek-R1-H100-CUDA是基于CUDA在H100上部署的基线性能,DeepSeek-R1-H100-FlagOS是在H100 GPU上利用FlagOS实现的模型,其性能与基线模型相匹配。DeepSeek-R1-FlagOS-Cambricon-BF16是基于FlagOS在寒武纪芯片上利用BF16混合精度技术部署的模型,其性能成功与基线模型对齐。DeepSeek-R1-FlagOS-Metax-BF16是基于FlagOS在沐曦芯片上利用BF16混合精度技术部署的模型,其性能同样与基线模型相匹配。DeepSeek-R1-FlagOS-Iluvatar-INT8是基于FlagOS在天数芯片上利用INT8量化技术部署的模型,尽管性能略有下降,但仍保持了较高的准确性。

此外,智源研究院还联合多家公司研发了大模型通用算子库FlagGems,基于OpenAI Triton语言并支持多种芯片架构。FlagGems算子库已初步验证了多元芯片统一算子层的路线可行性,并构建了从模型应用企业、系统集成商到芯片企业的全链路产业生态。

FlagScale是由智源研究院联合生态伙伴,基于开源技术共同构建的面向多芯片的开源大模型框架,旨在提升计算资源利用效率,并确保模型训练与推理效果。通过提供模型开发、训练和部署