FedGUI:跨异构平台、设备和操作系统对联合GUI代理进行基准测试

张开发
2026/4/18 6:44:28 15 分钟阅读

分享文章

FedGUI:跨异构平台、设备和操作系统对联合GUI代理进行基准测试
摘要使用传统集中式方法训练 GUI 智能体面临高昂成本和可扩展性方面的巨大挑战。联邦学习提供了一种有前景的解决方案但由于缺乏能够捕捉真实世界跨平台异质性的基准其潜力受到制约。为弥补这一空白我们提出 FedGUI——首个用于在移动、网页和桌面平台上开发与评估联邦 GUI 智能体的综合性基准。FedGUI 提供了一套包含六个精心整理的数据集用于系统研究四种关键的异质性类型跨平台、跨设备、跨操作系统和跨数据源。大量实验揭示了若干关键发现首先跨平台协作能够提升性能将先前仅限移动设备的联邦学习扩展到了多样化的 GUI 环境其次我们证明了不同异质性维度的存在并识别出平台和操作系统是最具影响力的因素。FedGUI 为社区构建更可扩展、更保护隐私的、面向真实世界部署的 GUI 智能体提供了重要基础。代码和数据已公开获取。引言近期视觉语言模型的进展使得 GUI 智能体得以涌现这类智能体能够感知图形用户界面并通过顺序交互执行用户指令。传统上GUI 智能体的方法主要依赖集中式数据收集和人工标注。尽管有效但这种范式存在数据收集成本高、可扩展性有限的问题。与此同时GUI 设备的广泛、频繁使用天然产生了丰富的监督信号这些信号可作为训练 GUI 智能体的低成本数据源。然而这些真实世界的大规模数据尚未得到充分利用因为用户隐私问题使其无法公开共享。这促使我们采用一种分布式学习范式每个客户端在本地数据上训练无需直接传输数据。初期研究已通过联邦学习探索了这一方向以实现保护隐私的协同训练。FedMABench 是首个专为联邦移动智能体设计的基准但它局限于安卓用户之间的协作忽略了引入网页和桌面环境用户以进一步提升性能的巨大潜力。此外FedMABench 也未考虑设备、操作系统和数据源之间更广泛的异质性形式。这些局限引出了两个基本挑战其一如何实现跨平台的 GUI 智能体训练协作以及来自不同平台的扩展协作是否能提升性能其二如何定量刻画和衡量跨越不同平台、操作系统、设备和数据源的真实世界异质性为应对上述挑战我们提出 FedGUI一个面向跨平台、跨设备的分布式 GUI 智能体的综合性基准。FedGUI 具有三个关键特征多样性——FedGUI 覆盖了广泛的真实世界 GUI 环境包括 900 余个移动应用、四十余个桌面应用和二百余个网站。它同时支持多步骤任务和跨应用任务能够评估不同复杂度划分下的智能体性能。全面性——FedGUI 集成了七种代表性的联邦学习算法并支持二十余种基础模型包括最先进的开源视觉语言模型和专有模型。此外FedGUI 提供了一套全面的评估指标同时衡量任务性能和系统效率。异质性——FedGUI 建模了四种典型的真实世界异质性场景模拟用户在不同平台、设备和操作系统上协作的复杂性从而反映真实的部署情况。

更多文章