ScreenSpot-Pro：专业高分辨率GUI代理的新标杆

2025年01月06日由 neo 发表 3459 0

在专业环境中，图形用户界面（GUI）代理面临着三大关键挑战。首先，专业应用程序相较于通用软件更为复杂，要求对这些复杂布局有深入的理解。其次，专业工具的高分辨率导致目标尺寸缩小，位置确定性降低。再者，对额外工具和文档的依赖增加了工作流程的复杂性。这些挑战凸显了在严苛的专业场景中提升GUI代理性能的迫切需求。

目前，现有的GUI位置确定模型和评估标准难以满足专业环境的要求。例如，ScreenSpot等工具专为低分辨率任务设计，缺乏模拟真实场景多样性的准确性。OS-Atlas和UGround等模型在计算效率上存在短板，尤其在小目标或界面图标密集的情况下无法正常工作，而这类情况在专业应用程序中屡见不鲜。此外，缺乏多语言支持限制了它们在全球工作流程中的应用。这些不足凸显了制定更全面、更真实评估标准的必要性，以推动该领域的发展。

为此，新加坡国立大学、华东师范大学和香港浸会大学的研究人员团队推出了ScreenSpot-Pro，一个专为专业高分辨率环境量身打造的新框架。该评估标准涵盖了开发、创意工具、计算机辅助设计（CAD）、科学平台和办公套件等行业23个应用程序中的1581个任务数据集。数据集包含高分辨率、全屏视觉效果及专家标注，确保了准确性和真实性。多语言指南提供英文和中文版本，拓宽了评估范围。ScreenSpot-Pro的独特之处在于它记录了实际工作流程，生成了真实的高质量标注，因此可作为GUI位置确定模型的全面评估和开发工具。

unnamed(8) unnamed(7)

ScreenSpot-Pro数据集捕捉了真实且具有挑战性的场景。数据集基于高分辨率图像，目标区域仅占屏幕总面积的约0.07%，指向微小且精细的GUI元素。数据由具有相关应用程序经验的专业用户收集，并使用专门工具确保准确标注。此外，该数据集支持多语言功能，以测试双语环境下的表现，并包含多个工作流程，捕捉真实专业任务的细微差别。这些特点使其在评估和提升GUI代理的准确性和灵活性方面具有显著优势。

利用ScreenSpot-Pro评估当前的GUI位置确定模型发现，在处理高分辨率专业环境时存在明显不足。OS-Atlas-7B实现了最高的18.9%准确率。然而，通过迭代方法，如ReGround，在多步骤方法中通过微调预测，准确率可提升至40.2%。小组件如图标带来了显著挑战，而双语任务进一步凸显了模型的局限性。这些发现强调了改进技术的必要性，以增强在复杂GUI环境中的语境理解和韧性。

unnamed(9)

ScreenSpot-Pro在评估专业高分辨率环境中的GUI代理方面树立了变革性的标准。它解决了复杂工作流程中的具体挑战，提供了一个多样且精确的数据集，引领GUI位置确定的创新。这一贡献为更智能、更高效的代理提供了基础，支持专业任务的无缝执行，显著提升各行业的生产力和创新能力。

文章来源：https://www.marktechpost.com/2025/01/05/screenspot-pro-the-first-benchmark-driving-multi-modal-llms-into-high-resolution-professional-gui-agent-and-computer-use-environments/

标签：

人工智能 GUI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AutoDroid-V2：基于SLM的移动任务自动化新突破

下一篇 Meta AI提出“可扩展存储层”，或成大型语言模型新突破

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来