在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序相较于通用软件更为复杂,要求对这些复杂布局有深入的理解。其次,专业工具的高分辨率导致目标尺寸缩小,位置确定性降低。再者,对额外工具和文档的依赖增加了工作流程的复杂性。这些挑战凸显了在严苛的专业场景中提升GUI代理性能的迫切需求。
目前,现有的GUI位置确定模型和评估标准难以满足专业环境的要求。例如,ScreenSpot等工具专为低分辨率任务设计,缺乏模拟真实场景多样性的准确性。OS-Atlas和UGround等模型在计算效率上存在短板,尤其在小目标或界面图标密集的情况下无法正常工作,而这类情况在专业应用程序中屡见不鲜。此外,缺乏多语言支持限制了它们在全球工作流程中的应用。这些不足凸显了制定更全面、更真实评估标准的必要性,以推动该领域的发展。
为此,新加坡国立大学、华东师范大学和香港浸会大学的研究人员团队推出了ScreenSpot-Pro,一个专为专业高分辨率环境量身打造的新框架。该评估标准涵盖了开发、创意工具、计算机辅助设计(CAD)、科学平台和办公套件等行业23个应用程序中的1581个任务数据集。数据集包含高分辨率、全屏视觉效果及专家标注,确保了准确性和真实性。多语言指南提供英文和中文版本,拓宽了评估范围。ScreenSpot-Pro的独特之处在于它记录了实际工作流程,生成了真实的高质量标注,因此可作为GUI位置确定模型的全面评估和开发工具。
ScreenSpot-Pro数据集捕捉了真实且具有挑战性的场景。数据集基于高分辨率图像,目标区域仅占屏幕总面积的约0.07%,指向微小且精细的GUI元素。数据由具有相关应用程序经验的专业用户收集,并使用专门工具确保准确标注。此外,该数据集支持多语言功能,以测试双语环境下的表现,并包含多个工作流程,捕捉真实专业任务的细微差别。这些特点使其在评估和提升GUI代理的准确性和灵活性方面具有显著优势。
利用ScreenSpot-Pro评估当前的GUI位置确定模型发现,在处理高分辨率专业环境时存在明显不足。OS-Atlas-7B实现了最高的18.9%准确率。然而,通过迭代方法,如ReGround,在多步骤方法中通过微调预测,准确率可提升至40.2%。小组件如图标带来了显著挑战,而双语任务进一步凸显了模型的局限性。这些发现强调了改进技术的必要性,以增强在复杂GUI环境中的语境理解和韧性。
ScreenSpot-Pro在评估专业高分辨率环境中的GUI代理方面树立了变革性的标准。它解决了复杂工作流程中的具体挑战,提供了一个多样且精确的数据集,引领GUI位置确定的创新。这一贡献为更智能、更高效的代理提供了基础,支持专业任务的无缝执行,显著提升各行业的生产力和创新能力。