Hugging Face 发布视觉语言模型 SmolVLM,具备20亿参数

Hugging Face 最近发布了 SmolVLM,这是一种专为设备推理设计的 2B 参数视觉语言模型。SmolVLM 在 GPU 内存使用量和令牌吞吐量方面均优于其他模型。SmolVLM 的主要特点是能够在较小的设备(包括笔记本电脑或消费级 GPU)上有效运行,而不会影响性能。它实现了性能和效率之间的平衡,而类似大小和功能的模型要实现这种平衡一直具有挑战性。与 Qwen2-VL 2B 不同,SmolVLM 生成令牌的速度是 Qwen2-VL 2B 的 7.5 到 16 倍,这得益于它偏向于轻量级推理的优化架构。这种效率为终端用户带来了实际优势。通过在日常设备上运行复杂的 VLM 任务,Hugging Face 解决了当前人工智能工具领域的一个重要空白。SmolVLM 在速度、效率和设备使用的实用性方面与同类其他模型竞争激烈,而且往往更胜一筹。