微软开源多模态AI Agent基础模型Magma
微软于2月27日宣布在官网开源多模态AI Agent基础模型Magma。该模型相较于传统Agent,最大的特点是其多模态能力,能够自动处理图像、视频、文本等多种不同类型的数据。此外,Magma还内置了心理预测功能,增强了其对视频帧中时空动态的理解能力,能够更准确地推测视频中人物或物体的意图和未来行为。这一开源举措将有助于推动AI技术的发展和应用。
微软于2月27日宣布在官网开源多模态AI Agent基础模型Magma。该模型相较于传统Agent,最大的特点是其多模态能力,能够自动处理图像、视频、文本等多种不同类型的数据。此外,Magma还内置了心理预测功能,增强了其对视频帧中时空动态的理解能力,能够更准确地推测视频中人物或物体的意图和未来行为。这一开源举措将有助于推动AI技术的发展和应用。