Agent 新进展：跨 app、跨设备、更多玩法｜智谱 Agent OpenDay

AI资讯

4周前

人类与机器的互动方式正在发生范式转变——这是由于只有对话功能的 Chatbot，正在进化为“有手、有脑、有眼睛”的自主 Agent。作为最早探索 Agent 的大模型企业之一，智谱今天带来了多个新进展：

- AutoGLM 可以自主执行超过 50 步的长步骤操作，也可以跨 app 执行任务。
- AutoGLM 开启「全自动」上网新体验，支持等数十个网站的无人驾驶。
- GLM-PC 启动内测，基于视觉多模态模型实现通用 Agent 的技术探索。

在 OpenDay 现场，AutoGLM 给在场数百位嘉宾发送了「AI给人类发的第一个红包」，并且手机远程指挥电脑自动发送文件。而智谱 CEO 张鹏需要做的，只是在现场下达一个简单语音指令。这些原本对于机器而言非常复杂的操作，今天完全由智谱产品化的 Agent 完成。

新升级的 AutoGLM 可以挑战完成复杂任务：

- 超长任务：理解超长指令，执行超长任务。并且，在这种多步、循环任务中，AutoGLM 的速度表现超过人手动操作。
- 跨 App：AutoGLM 支持跨 App 来执行任务。由于目前 AutoGLM 形态更像是用户和应用间的 APP 执行的调度层，因此跨 App 能力是里面非常关键的一步。
- 短口令：AutoGLM 能支持长任务的自定义短语。今天不用再给 AutoGLM 说：“帮我买一杯瑞幸咖啡，生椰拿铁，五道口店，大杯、热、微糖” ，只需要说“点咖啡”。
- 随便模式：我们都会陷入选择恐惧，AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策，带来有抽盲盒式的惊喜。

同时 AutoGLM 启动大规模百万内测，并将尽快上线成为面向 C 端用户的产品。AutoGLM 同时宣布启动「10个亿级 APP 免费 Auto 升级」的计划，邀请 App 伙伴联合探索自己的 Auto 新场景。支持核心场景和核心应用的 AutoGLM 标品 API，即将上线到智谱 maas 开放平台（bigmodel.cn）试用。

在 Web 端，智谱清言插件上线 AutoGLM 功能，支持搜索、微博、知乎、Github 等数十个网站的无人驾驶。在现场 demo 里，清言插件自动完成了“在百度搜索芒果tv，打开小巷人家，播放最新一集，发弹幕结局打卡”。全程没有人的干预。

一次「无人驾驶」的技术探索不只是基于手机和浏览器，智谱还带来基于 PC 的自主 Agent。GLM-PC 是 GLM 团队面向「无人驾驶」PC 的一次技术探索，基于智谱的多模态模型 CogAgent。目前开放第一阶段的内测场景，包括：

- 会议替身：帮用户预定和参与会议，发送会议总结。
- 文档处理：支持文档下载、文档发送、理解和总结文档。
- 网页搜索与总结：在指定平台（如微信公众号、知乎、小红书等）搜索指定关键词，完成阅读、总结。
- 远程和定时操作：远程手机发指令，GLM-PC 可以自主完成电脑操作；设定一个未来时间，在开机状态下定时执行任务。
- 隐形屏幕：在用户工作时，GLM-PC 可以在隐形屏幕上自主完成工作，解放屏幕使用权。

人用电脑的过程——用眼看图形及文字，用脑规划，再用手执行单击双击、输入等操作。GLM-PC 用电脑的方式几乎完全和人一样。也正因如此，理论上只要是为人类设计的应用，在 GLM-PC 学习之后它都能够执行。这是一种系统级、跨平台的能力，不依赖于 HTML、API，具备更高的能力上限。不过，由于 PC 的复杂程度，以及大家在 PC 完成的几乎都是复杂任务，坦率的说，今天大模型的能力距离真正代替大家办公还有一定距离。GLM-PC「邀请体验」已开启。我们也会继续努力，在产品完善后尽快上线供所有用户使用，同时也希望和更多厂商联合共创共同探索。

Agent 新进展：跨 app、跨设备、更多玩法｜智谱 Agent OpenDay

最新内容