DeepSeek-R1-Lite 预览版上线:强化学习训练的推理模型

DeepSeek-R1-Lite 预览版上线,标志着深度求索在人工智能推理模型开发上取得了重要进展。该模型采用强化学习进行训练,其推理过程不仅包括逻辑分析,还融入了反思和验证机制,使得思维链的长度可以达到数万字。在数学、代码以及复杂逻辑推理任务上,DeepSeek-R1-Lite 展现出了与 o1-preview 相当的推理能力,并且为用户提供了 o1 未公开的完整思考过程。尽管 DeepSeek-R1-Lite 目前仍处于迭代开发阶段,仅支持网页使用,不支持 API 调用,且使用的基座模型较小,限制了长思维链的发挥,但这一版本的发布为后续版本的优化和功能完善奠定了坚实的基础。