阿里云通义开源Qwen2.5-VL模型,视觉理解能力领先GPT-4

在1月28日凌晨,阿里云通义千问团队宣布开源一款名为Qwen2.5-VL的视觉模型,该模型在视觉理解能力上取得了显著突破,超越了GPT-4和Claude3.5。此次发布涵盖了3B、7B和72B三个不同尺寸的版本,其中旗舰版Qwen2.5-VL-72B在13项权威评测中摘得视觉理解冠军。

Qwen2.5-VL模型不仅能够准确解析图像内容,还具备超强的视频理解能力,能够处理长达1小时的视频内容,并在视频中搜索具体事件,总结不同时间段的要点。此外,该模型还创新性地引入了动态帧率训练和绝对时间编码技术,使得模型能够直接操作手机和电脑,实现多步骤复杂操作,如发送祝福、修图、订票等。

通义团队此前已开源Qwen-VL及Qwen2-VL两代模型,新发布的Qwen2.5-VL模型在视觉知识解析、OCR能力、文档解析能力以及视频理解能力等方面实现了飞跃式提升。开发者可以基于Qwen2.5-VL快速开发自己的AI智能体,完成自动化处理和分析任务。

目前,不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社区、HuggingFace等平台开源,开发者也可以在Qwen Chat上直接体验最新模型。

总结来说,Qwen2.5-VL模型的发布标志着视觉模型技术的一大进步,为AI在更多场景中的应用提供了可能。随着技术的不断迭代和优化,我们可以期待AI在未来能够实现更多智能化和自动化的任务。