Adept发布Fuyu-8B，用于多模态AI代理的新模型

2023年10月20日由 daydream 发表 901 0

Adept发布了Fuyu-8B，这是其多模态模型的精简版，现在可以通过HuggingFace访问。该模型可以理解图表、文档和图表，并具备改进的OCR功能。

微信截图_20231020113334

这款新模型因为多个关键原因而受到了相当大的关注，其中包括简化的架构。与其他多模态模型相比，Fuyu-8B的训练过程更为简单，为用户提供了更易于访问、可扩展和可部署的解决方案。

该模型专门针对数字AI代理进行了定制设计，以满足数字代理的特定需求。它能够处理任意图像分辨率，回答与图形、图表、基于用户界面的问题相关的查询，并能够在屏幕图像中进行精确定位。值得一提的是，Fuyu-8B展现出惊人的速度，在不到100毫秒的时间内为大型图像提供响应。

尽管针对特定应用进行了优化，Fuyu-8B在标准图像理解基准测试中表现卓越，包括视觉问答和自然图像字幕等任务。

Fuyu模型避免了其他模型复杂的架构设计，而是采用了仅包含解码器的Transformer结构，不需要单独的图像编码器。图像块被线性投影到Transformer模型的第一层，从而简化了模型的结构。

这种简化的架构设计使得Fuyu能够支持任意大小的图像分辨率，将图像标记与文本标记一样进行处理。特殊的图像换行符表示换行，而模型利用现有的位置嵌入来适应不同大小的图像。这种方法消除了需要单独进行高分辨率和低分辨率训练阶段的需求，大大简化了训练和推理过程。

微信截图_20231020132752

为了评估这些改进，Adept在知名的图像理解数据集，包括VQAv2、OKVQA、COCO Captions和AI2D等上进行了评估。Fuyu-8B展示了强大的性能，即使在自然图像领域也表现出色。尽管参数数量明显较少，但在多个指标上，它明显优于QWEN-VL和PALM-e-12B等模型。即使Fuyu-Medium变体也能够与PALM-E-562B相媲美。

尽管PALI-X由于针对每个特定任务进行了微调，因此仍然在这些基准测试中处于领先地位，但需要注意的是，Adept的主要关注点并不是优化这些基准测试。然而，Fuyu-8B及其变体作为多模态模型领域的新兴选择，提供了一种更简单但高效的替代方案。

文章来源：https://analyticsindiamag.com/adept-releases-fuyu-8b-for-multimodal-ai-agents/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI开放DALL-E 3访问权限

下一篇阿里达摩院首创遥感AI大模型，一键识别地表万物，助力地球科学探索

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来