谷歌发布新款大模型PaliGemma2

谷歌近日宣布推出一款名为 PaliGemma 2 的开放式视觉语言模型,这是其继 Gemma 2 之后的最新版本。PaliGemma 2 的一大亮点是能够为图像生成详细的、与上下文相关的字幕,不仅限于简单的物体识别,还能描述动作、情感和场景的整体叙述。该模型可用的尺寸包括 3B、10B 和 28B 参数,以及 224px、448px 和 896px 分辨率。此外,PaliGemma 2 还具备精确的光学字符识别能力,能够理解和分析文档中的表格结构及内容。谷歌的研究显示,PaliGemma 2 在化学公式识别、乐谱识别、空间推理和胸部 X 光报告生成等方面表现出色。谷歌表示,PaliGemma 2 的设计旨在直接替代现有用户使用的模型。