Adept发布Fuyu-8B,用于多模态AI代理的新模型

2023年10月20日 由 daydream 发表 670 0

Adept发布了Fuyu-8B,这是其多模态模型的精简版,现在可以通过HuggingFace访问。该模型可以理解图表、文档和图表,并具备改进的OCR功能。


微信截图_20231020113334

这款新模型因为多个关键原因而受到了相当大的关注,其中包括简化的架构。与其他多模态模型相比,Fuyu-8B的训练过程更为简单,为用户提供了更易于访问、可扩展和可部署的解决方案。


该模型专门针对数字AI代理进行了定制设计,以满足数字代理的特定需求。它能够处理任意图像分辨率,回答与图形、图表、基于用户界面的问题相关的查询,并能够在屏幕图像中进行精确定位。值得一提的是,Fuyu-8B展现出惊人的速度,在不到100毫秒的时间内为大型图像提供响应。


尽管针对特定应用进行了优化,Fuyu-8B在标准图像理解基准测试中表现卓越,包括视觉问答和自然图像字幕等任务。


Fuyu模型避免了其他模型复杂的架构设计,而是采用了仅包含解码器的Transformer结构,不需要单独的图像编码器。图像块被线性投影到Transformer模型的第一层,从而简化了模型的结构。


这种简化的架构设计使得Fuyu能够支持任意大小的图像分辨率,将图像标记与文本标记一样进行处理。特殊的图像换行符表示换行,而模型利用现有的位置嵌入来适应不同大小的图像。这种方法消除了需要单独进行高分辨率和低分辨率训练阶段的需求,大大简化了训练和推理过程。


微信截图_20231020132752

为了评估这些改进,Adept在知名的图像理解数据集,包括VQAv2、OKVQA、COCO Captions和AI2D等上进行了评估。Fuyu-8B展示了强大的性能,即使在自然图像领域也表现出色。尽管参数数量明显较少,但在多个指标上,它明显优于QWEN-VL和PALM-e-12B等模型。即使Fuyu-Medium变体也能够与PALM-E-562B相媲美。


尽管PALI-X由于针对每个特定任务进行了微调,因此仍然在这些基准测试中处于领先地位,但需要注意的是,Adept的主要关注点并不是优化这些基准测试。然而,Fuyu-8B及其变体作为多模态模型领域的新兴选择,提供了一种更简单但高效的替代方案。

文章来源:https://analyticsindiamag.com/adept-releases-fuyu-8b-for-multimodal-ai-agents/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消