阿里云通义开源Qwen2.5-VL模型，视觉理解能力领先GPT-4

3天前

在1月28日凌晨，阿里云通义千问团队宣布开源一款名为Qwen2.5-VL的视觉模型，该模型在视觉理解能力上取得了显著突破，超越了GPT-4和Claude3.5。此次发布涵盖了3B、7B和72B三个不同尺寸的版本，其中旗舰版Qwen2.5-VL-72B在13项权威评测中摘得视觉理解冠军。

Qwen2.5-VL模型不仅能够准确解析图像内容，还具备超强的视频理解能力，能够处理长达1小时的视频内容，并在视频中搜索具体事件，总结不同时间段的要点。此外，该模型还创新性地引入了动态帧率训练和绝对时间编码技术，使得模型能够直接操作手机和电脑，实现多步骤复杂操作，如发送祝福、修图、订票等。

通义团队此前已开源Qwen-VL及Qwen2-VL两代模型，新发布的Qwen2.5-VL模型在视觉知识解析、OCR能力、文档解析能力以及视频理解能力等方面实现了飞跃式提升。开发者可以基于Qwen2.5-VL快速开发自己的AI智能体，完成自动化处理和分析任务。

目前，不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社区、HuggingFace等平台开源，开发者也可以在Qwen Chat上直接体验最新模型。

总结来说，Qwen2.5-VL模型的发布标志着视觉模型技术的一大进步，为AI在更多场景中的应用提供了可能。随着技术的不断迭代和优化，我们可以期待AI在未来能够实现更多智能化和自动化的任务。

最新内容