苹果发布新型多模态大语言模型Ferret-UI，专注UI理解

2024年09月18日由 daydream 发表 487 0

苹果公司研究团队近期公布了一项研究成果，介绍了一种名为Ferret-UI的新型多模态大语言模型（MLLM）。该模型在理解用户界面（UI）元素、功能及潜在用户交互方面表现出色，甚至在部分基础UI任务上超越了GPT-4V。

微信截图_20240918100523

Ferret-UI旨在解决与手机屏幕相关的三项核心任务：指代、定位与推理。这些能力使其能够精确理解屏幕内容，并据此执行操作。具体来说，它能识别并分类如控件、图标和文本等UI元素，通过不同的输入格式（如边界框、涂鸦或点）来实现。在定位方面，Ferret-UI能精确定位屏幕上的元素位置，响应相关指令，如找到特定控件或列出所有控件。此外，该模型还具备推理能力，能够理解屏幕的整体功能，描述详细内容，进行目标导向的对话，并推断UI布局的目的。

值得注意的是，Ferret-UI具备“任意分辨率”（anyres）功能，能够适应不同屏幕比例，同时保持对UI元素识别与交互的高精度。通过将屏幕划分为子图像，模型能够同时捕捉整体上下文和UI元素的精细细节。

研究过程中，苹果利用GPT-3.5生成了丰富多样的训练数据集，这一创新方法增强了Ferret-UI在复杂移动UI任务中的精确度。尽管目前仅为研究项目，但Ferret-UI的技术潜力不容忽视。未来，它可能应用于更智能的语音助手（如Siri），使其能够像人类一样导航和使用手机，处理复杂的语音指令，自动化跨应用的多步骤任务，或根据屏幕内容提供更细致的帮助。

在移动无障碍领域，Ferret-UI也有望发挥作用，提供更准确、上下文感知的应用界面描述，辅助开发者进行自动化UI测试，甚至推动更智能的应用推荐。然而，Ferret-UI也存在局限性，如依赖预定义的UI元素检测，可能忽略设计美学等细微差别，同时在复杂推理方面仍面临挑战。

苹果对于Ferret-UI的研究进一步体现了其专注于开发可直接在设备上运行的专用、高效AI模型的策略，这与其强调用户隐私和设备级处理能力的理念相契合。尽管在生成式AI的新时代中相对低调，但苹果在AI研究领域的投入与贡献不容忽视，今年早些时候还发布了开源模型家族于Hugging Face平台。

文章来源：https://www.maginative.com/article/apples-ferret-ui-is-an-ai-that-can-understand-and-navigate-mobile-uis/

标签：

苹果大语言模型 Ferret-UI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌推出DataGemma模型，旨在减少语言模型中的事实错误

下一篇阿里通义千问开源 Qwen2.5 大模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来