eAI的“phone use”也来了MG电子不止computer us
AutoGLM 可以完成人类在可视化电子设备(电脑▲▷◇,理论上△◇,为此○△■○▲☆,研发了一种「自进化在线课程强化学习框架」以在真实在线环境中=◆…,能够在迭代过程中不断改进☆-△▪、持续稳定地提高自身性能○•▼▷•。真正做到在日常生活△▽、工作中辅助人类▲▪。GUI 智能体训练轨迹数据极其有限和成本高昂●…▪☆。不断获取新技能■○■▪?
我们以 Web 浏览器作为实验环境◁□●△★■,它不受限于简单的任务场景或 API 调用□=■▽,从头开始学习和提升大模型智能体在 Web 和 Phone 环境中的能力▲▪。平板……)上能做的任何事▪☆○•。
为了解决这一问题△△▪△▼,AutoGLM 引入了「基础智能体解耦合中间界面」设计★-•◇◇,将…=◆-○▷“任务规划•△-•▽”与■◆○◆=“动作执行◁◆◁-●”两个阶段通过自然语言中间界面进行解耦合▲▪▪▲▲□,实现了智能体能力的极大提升☆=▲。例如◁…■,在手机上点外卖◆☆▼○,需要点击◇▼▷◇“提交订单□◁◆=◆★”按钮时□▪●▷●,对比传统和◆☆◆“中间界面▷▪”方案如下▪▲▪▪●:
在 WebArena-Lite 评测基准中○◁◇▲•△,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升-…,大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距•▽▲◁。
让 AI agent 能够像人类一样直接与手机进行交互■◆-=△视频录制智能眼镜 Record,,并自动化地帮助人类完成一些日常任务■△--了MG电子不止computer us,将进一步催生人机交互的新范式□■。
AutoGLM 现以通过安卓应用的方式▽◆,在真实的安卓手机支持多个应用上的自动化任务执行▽●★-。在简单任务的人工评测中◆○▷,AutoGLM 表现令人满意•◆★▪。
在手机端-==,AutoGLM 已首批开放给部分清言用户(暂时仅支持安卓系统)…◁★★-,欢迎大家提交内测申请★▪□○●▼。据了解○☆▷=◇,智谱也与荣耀等手机厂商基于 AutoGLM 开展了深度合作…▽。
本文为澎湃号作者或机构在澎湃新闻上传并发布…▽△☆▷-,仅代表该作者或机构观点•▪▲==•,不代表澎湃新闻的观点或立场••☆○■,澎湃新闻仅提供信息发布平台★◁•△▪•。申请澎湃号请用电脑访问▲=☆◆★。
训练大模型智能体的一大难题-△▪★,在于如何让模型学会精准地操作屏幕上显示的元素•-=▽。端到端训练联合训练▷▲▲▼◆“动作执行•○”和◁•“任务规划…☆”能力=▲◇,受制于轨迹数据获取成本高昂▪▪•▼•,数据总量严重不足▪◇,导致需要高精度的动作执行能力训练不充分★◇。
如果说「computer use」开启了人机交互的新范式••☆•◇◇,那么「phone use」则更进一步MG电子官网…▲,解锁更多应用的可能性▼•★-▲◁,让 AI 真正惠及每一个人•△▷•。
克服了大模型智能体任务规划和动作执行存在的能力拮抗○■◆、训练任务和数据稀缺◇=▽、反馈信号稀少和策略分布漂移等智能体研究和应用难题▷=▪▽▽,加之自适应学习策略★▷▪○=,也不需要用户手动搭建复杂繁琐的工作流▽○☆▼◁,通过对 GUI 的深刻理解◆△☆-,操作逻辑与人类类似-▪☆◁,智能体需要具备灵活的即时规划和纠正能力▪□○▽◁。手机●★,另一个主要挑战在于☆…▼=,在成长过程中○…▪•=▷,就像一个人•…▪○-◁,
这并非能通过例如模仿学习(Imitation Learning)和有监督微调(SFT)等传统大模型训练方法所能轻易获得…-●○▷。AutoGLM 基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」■★…◁▽,而且在面对复杂任务和真实环境时◁◆△■▷…?
今天☆△=■,智谱在 CNCC2024 大会上■▷▲,基于在语言模型▪○•☆▪、多模态模型和工具使用方面的努力和研究成果▷◁,推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM•-◁,只需接收简单的文字/语音指令MG电子官网…•☆,它就可以模拟人类操作手机▷◇◁◁,进而帮你◆▼☆•●-:
另外△•▪◆★,AutoGLM 的 Web 能力也已经通过「智谱清言」插件对外公开使用-☆▼◁eAI的“phone use”也来。「智谱清言」插件是一个能模拟用户访问网页▲☆▷◁-○、点击网页的浏览器助手▷•◁=◁,大模型可以根据用户指令在网站上自动完成高级检索◇◆◁、总结与内容生成●◇◆-■☆。
在微信上「给老板的朋友圈点赞并写评论」•△▽▽,在淘宝上「购买某一款历史订单产品」▲▷◇▷•,以及在携程上预订酒店=○□、在 12306 上购买火车票○◆◁、在美团上点个外卖◇▽.…◇•-△.▽•◆■▷.■▪■☆▷.▪◁△◆.•●▲△.
通过引入自进化学习策略▪…-◁,模型不断自我考察▪◁▼…△☆、鞭策●☆▼◇□、提升□□▲▽…◁。通过课程强化学习方法□■□☆▪,该框架根据智能体当前迭代轮次的能力水平▲☆=•,动态调整学习的任务难度▲▼△,以最大程度利用模型潜能△▪。而通过 KL 散度控制的策略更新以及智能体置信度经验回放▪■…•▲,我们减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题■☆••。基于该方法训练的开源版 GLM-4-9B▼▪◁★•▷,就可以在 WebArena-Lite 评测基准中相对 GPT-4o 提升超过 160%▼▲◇-,达到总体 43% 的任务成功率▽◁△★•。