GUI Agent相关

定义

在图形界面上看、想、点、打字、拖拽并完成任务的智能体。 它通过“观察屏幕状态→规划→执行操作→再观察→纠错”的闭环, 在桌面应用、网页、移动端 App 等界面中自主操作。

典型体系结构

Pasted image 20260104152403

发展历史:

  1. 最早是基于规则和脚本的自动化;
  2. 2010s开始的由于深度学习技术的发展,计算学习用户交互轨迹;
  3. 2020s后,由于MLLMs的发展,给GUI agent带来了革命性的进展。

paper list:

https://github.com/OSU-NLP-Group/GUI-Agents-Paper-List/

https://github.com/showlab/Awesome-GUI-Agent

https://github.com/slavakurilyak/awesome-ai-agents

通用LVLMs与专用于GUI agent的LVLMs

两者区别能力训练数据输出接口
通用LVLMs“能看懂图”的通用聊天型LVLM

坐标/动作是附带能力
通用图文对齐需要用提示词告诉他输出坐标,受格式和缩放影响
专用于GUI agent的LVLMs“能看懂并去点”的代理型LVLM,

训练与接口都围绕可执行的GUI交互优化
大量使用屏幕截图、UI布局、流程轨迹、合成交互数据等训练直接输出动作click(x,y)
相对“用提示让模型说出坐标”,专门有一个负责输出几何量的预测分支,还能给置信度。
分类举例介绍能力侧重出处
专用于GUI agent的LVLMsCogAgent

开源视觉语言模型
1. 支持1120*1120的超高分辨率图像输入和对话式问答

2. 跨平台泛化能力

3. 首个专门为GUI理解设计的LVLM
1. 界面元素识别和语义对齐

2. 元素级定位

3. GUI任务分解和步骤规划

4. 结合文本信息,候选元素列表,提升语义对齐与命中率
CogAgent (Hong et al., 2023) 

https://github.com/zai-org/CogVLM

https://arxiv.org/abs/2312.08914

清华大学、智谱AI,完全开源
Fuyu-8B1. 通用多模态大模型

2. 重点是理解和问答
1. 理解内容,尤其是文本密集和结构化视觉(表格、流程图等)

2. 擅长解释页面上写了什么,图标表达了什么
Fuyu (Bavishi et al., 2023) 

https://www.adept.ai/blog/fuyu-8b

Adept AI完全开源
通用LVLMsLLaVA系列(开源)、Qwen-VL系列(开源)、GPT-4V/GPT-4o(闭源)、Claude Vision系列 (Opus/Sonnet)(闭源)、Gemini(闭源)
使用 Hugo 构建
主题 StackJimmy 设计