Agent 新进展:跨 app、跨设备、更多玩法|智谱 Agent OpenDay

人类与机器的互动方式正在发生范式转变——这是由于只有对话功能的 Chatbot,正在进化为“有手、有脑、有眼睛”的自主 Agent。作为最早探索 Agent 的大模型企业之一,智谱今天带来了多个新进展:

- AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务。
- AutoGLM 开启「全自动」上网新体验,支持等数十个网站的无人驾驶。
- GLM-PC 启动内测,基于视觉多模态模型实现通用 Agent 的技术探索。

在 OpenDay 现场,AutoGLM 给在场数百位嘉宾发送了「AI给人类发的第一个红包」,并且手机远程指挥电脑自动发送文件。而智谱 CEO 张鹏需要做的,只是在现场下达一个简单语音指令。这些原本对于机器而言非常复杂的操作,今天完全由智谱产品化的 Agent 完成。

新升级的 AutoGLM 可以挑战完成复杂任务:

- 超长任务:理解超长指令,执行超长任务。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。
- 跨 App:AutoGLM 支持跨 App 来执行任务。由于目前 AutoGLM 形态更像是用户和应用间的 APP 执行的调度层,因此跨 App 能力是里面非常关键的一步。
- 短口令:AutoGLM 能支持长任务的自定义短语。今天不用再给 AutoGLM 说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” ,只需要说“点咖啡”。
- 随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。

同时 AutoGLM 启动大规模百万内测,并将尽快上线成为面向 C 端用户的产品。AutoGLM 同时宣布启动「10个亿级 APP 免费 Auto 升级」的计划,邀请 App 伙伴联合探索自己的 Auto 新场景。支持核心场景和核心应用的 AutoGLM 标品 API,即将上线到智谱 maas 开放平台(bigmodel.cn)试用。

在 Web 端,智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的无人驾驶。在现场 demo 里,清言插件自动完成了“在百度搜索芒果tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。

一次「无人驾驶」的技术探索不只是基于手机和浏览器,智谱还带来基于 PC 的自主 Agent。GLM-PC 是 GLM 团队面向「无人驾驶」PC 的一次技术探索,基于智谱的多模态模型 CogAgent。目前开放第一阶段的内测场景,包括:

- 会议替身:帮用户预定和参与会议,发送会议总结。
- 文档处理:支持文档下载、文档发送、理解和总结文档。
- 网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。
- 远程和定时操作:远程手机发指令,GLM-PC 可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。
- 隐形屏幕:在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。

人用电脑的过程——用眼看图形及文字,用脑规划,再用手执行单击双击、输入等操作。GLM-PC 用电脑的方式几乎完全和人一样。也正因如此,理论上只要是为人类设计的应用,在 GLM-PC 学习之后它都能够执行。这是一种系统级、跨平台的能力,不依赖于 HTML、API,具备更高的能力上限。不过,由于 PC 的复杂程度,以及大家在 PC 完成的几乎都是复杂任务,坦率的说,今天大模型的能力距离真正代替大家办公还有一定距离。GLM-PC「邀请体验」已开启。我们也会继续努力,在产品完善后尽快上线供所有用户使用,同时也希望和更多厂商联合共创共同探索。