微软发布Magma:多模态AI模型的创新突破
微软研究院、马里兰大学、威斯康星大学麦迪逊分校、KAIST 和华盛顿大学的研究人员近日宣布推出基础大模型 Magma,这是一个旨在克服现有 VLA 模型局限性的创新多模态 AI 模型。Magma 采用了一种先进的训练方法,将多模态理解、行动基础和规划融为一体,为 AI 技术的发展带来了新的可能性。
Magma 的训练基于一个包含 3900 万个样化的数据集,包括图像、视频和机器人动作轨迹。这种大规模的数据处理为 Magma 的学习和适应能力提供了坚实的基础。Magma 的设计使用了深度学习架构和大规模预训练相结合的方法,以优化其在多个领域的性能。在视觉处理方面,Magma 依赖于 ConvNeXt-XXL 视觉骨干,而在语言处理方面,则使用了 LLaMA-3-8B 语言模型。
Magma 的发布标志着 AI 技术在多模态理解和交互领域的又一重要里程碑。随着技术的不断迭代和优化,Magma 有望在智能机器人、自动驾驶、虚拟助手等多个领域发挥重要作用,为人们的生活带来更多便利和惊喜。
【关于 Magma 的详细信息,请访问微软研究院官方网站】