微软发布升级版OmniParser,将大模型转化为计算机AI智能体

微软近日宣布推出大模型工具OmniParser的V2版本,该工具能够将各种大模型转换为能够操控计算机的AI智能体。OmniParser通过将用户界面的屏幕截图从像素空间转换为大模型可理解的结构化元素,使得大模型能够根据解析后的交互元素进行下一步操作的预测。与之前版本相比,OmniParser V2在检测小尺寸交互元素方面取得了更高的准确性和更快的推理速度,这使得它成为自动化图形用户界面的一个有用的工具。OmniParser V2在更大的交互式元素检测数据集和图标功能说明数据的训练下,进一步优化。通过减少图标标题模型的图像大小,OmniParser V2的延迟时间比前一个版本减少了60%。这一升级将有助于提高AI在复杂用户界面上的操作效率,并为自动化任务提供更精确的支持。