Step R-mini 推理模型发布:性能超越 o1-preview
近日,阶跃星辰公司宣布推出自研推理模型 Step R-mini,该模型在 AIME 和 Math 等数学基准测试中取得了超过 o1-preview 的成绩。这一成就的实现,得益于 Step R-mini 在大规模强化学习训练中应用了先进的 On-Policy 强化学习算法。
Step R-mini 不仅在数学、代码和逻辑推理方面表现出色,能够快速准确地解答相关问题,还展现了其在文学创作和日常交流中的创意和灵活性。这一模型的发布,标志着阶跃星辰在人工智能技术研究上的又一重要里程碑,为推动 AI 技术在多个领域的应用提供了强有力的支持。
随着 Step R-mini 的上线,人们对于 AI 技术的期待将再次被点燃。未来,随着技术的不断迭代和优化,我们可以预见,AI 将会在更多复杂的任务中展现出惊人的能力,为我们的生活带来更多的便利和惊喜。