苹果公司研究团队近期公布了一项研究成果,介绍了一种名为Ferret-UI的新型多模态大语言模型(MLLM)。该模型在理解用户界面(UI)元素、功能及潜在用户交互方面表现出色,甚至在部分基础UI任务上超越了GPT-4V。
Ferret-UI旨在解决与手机屏幕相关的三项核心任务:指代、定位与推理。这些能力使其能够精确理解屏幕内容,并据此执行操作。具体来说,它能识别并分类如控件、图标和文本等UI元素,通过不同的输入格式(如边界框、涂鸦或点)来实现。在定位方面,Ferret-UI能精确定位屏幕上的元素位置,响应相关指令,如找到特定控件或列出所有控件。此外,该模型还具备推理能力,能够理解屏幕的整体功能,描述详细内容,进行目标导向的对话,并推断UI布局的目的。
值得注意的是,Ferret-UI具备“任意分辨率”(anyres)功能,能够适应不同屏幕比例,同时保持对UI元素识别与交互的高精度。通过将屏幕划分为子图像,模型能够同时捕捉整体上下文和UI元素的精细细节。
研究过程中,苹果利用GPT-3.5生成了丰富多样的训练数据集,这一创新方法增强了Ferret-UI在复杂移动UI任务中的精确度。尽管目前仅为研究项目,但Ferret-UI的技术潜力不容忽视。未来,它可能应用于更智能的语音助手(如Siri),使其能够像人类一样导航和使用手机,处理复杂的语音指令,自动化跨应用的多步骤任务,或根据屏幕内容提供更细致的帮助。
在移动无障碍领域,Ferret-UI也有望发挥作用,提供更准确、上下文感知的应用界面描述,辅助开发者进行自动化UI测试,甚至推动更智能的应用推荐。然而,Ferret-UI也存在局限性,如依赖预定义的UI元素检测,可能忽略设计美学等细微差别,同时在复杂推理方面仍面临挑战。
苹果对于Ferret-UI的研究进一步体现了其专注于开发可直接在设备上运行的专用、高效AI模型的策略,这与其强调用户隐私和设备级处理能力的理念相契合。尽管在生成式AI的新时代中相对低调,但苹果在AI研究领域的投入与贡献不容忽视,今年早些时候还发布了开源模型家族于Hugging Face平台。