微软发布Florence-2模型,统一处理多视觉任务

2024年06月20日 由 daydream 发表 162 0

微软Azure AI团队在Hugging Face平台上发布了一款名为Florence-2的新型视觉基础模型。


微信截图_20240620104808


这款模型采用了宽松的MIT许可协议,能够通过基于提示的统一表示法,处理包括图像描述、对象检测、视觉定位和分割等在内的多种视觉和视觉语言任务。Florence-2提供两种尺寸选择——拥有2.32亿和7.71亿参数,它在多项任务上的性能表现出色,与许多大型视觉模型相比,性能相当甚至更优。


虽然Florence-2在现实世界的具体表现还有待进一步测试,但预计它将为企业提供一种全新的、统一的方法来处理不同类型的视觉应用。这将有助于企业节省投资,不再需要为功能单一的特定任务视觉模型投入大量资源,而无需进行广泛的微调。


那么,Florence-2究竟有何独特之处呢?


目前,大型语言模型(LLMs)在企业运营中扮演着核心角色。一个模型就可以完成摘要生成、编写营销文案,甚至处理客户服务等多种任务。这种跨域和任务的适应能力令人印象深刻。但是,这也让研究人员开始思考:长期以来一直局限于特定任务的视觉模型,是否也能实现类似的能力?


从核心层面来看,视觉任务相对于基于文本的自然语言处理(NLP)来说更为复杂。它们需要全面的感知能力。要实现多样化视觉任务的普遍表示,模型必须能够理解不同尺度上的空间数据,从宽泛的图像级概念到精细的像素细节,以及从高级标题到详细描述的语义细节。


微软在尝试解决这一问题时,遇到了两大障碍:一是全面标注的视觉数据集稀缺,二是缺乏一个集成了理解空间层次和语义粒度能力的统一预训练框架和单一网络架构。


为了克服这些难题,微软首先利用专业模型生成了一个名为FLD-5B的视觉数据集。这个数据集包含了1.26亿张图像和总共54亿个标注,涵盖了从高级描述到特定区域和对象的详细标注。随后,微软利用这些数据训练了Florence-2。该模型采用了序列到序列架构(一种专为涉及序列数据任务设计的神经网络),集成了图像编码器和多模态编码器-解码器。这使得Florence-2能够处理各种视觉任务,而无需对架构进行特定于任务的修改。


“数据集中的所有标注,FLD-5B,都被统一标准化为文本输出,以便使用与损失函数一致的目标进行统一的多任务学习方法,”研究人员在描述该模型的论文中写道。“最终得到的是一个功能多样的视觉基础模型,能够执行各种任务……所有这些任务都由一个由统一参数集控制的单一模型完成。任务激活是通过文本提示实现的,这与大型语言模型所使用的方法相类似。”


在性能方面,Florence-2展现出了超越大型模型的实力。当使用图像和文本输入进行提示时,它能够处理包括对象检测、图像描述、视觉定位和视觉问题回答在内的多种任务。更重要的是,它的表现质量与其他许多大型模型相当或更好。


例如,在COCO数据集上的零次学习图像描述测试中,Florence的2.32亿和7.71亿参数版本分别获得了133和135.6的分数,均超过了Deepmind的800亿参数Flamingo视觉语言模型。它们的表现甚至超过了微软自己的视觉定位专用模型Kosmos-2。


当使用公开的人类标注数据进行微调时,尽管Florence-2的尺寸相对紧凑,但它仍然能够在视觉问题回答等任务上与多个更大的专业模型竞争。


“预训练的Florence-2主干模型提高了下游任务的性能,例如COCO对象检测和实例分割,以及ADE20K语义分割,超越了监督学习和自我监督学习模型,”研究人员指出。“与在ImageNet上预训练的模型相比,我们的模型提高了4倍的训练效率,并在COCO和ADE20K数据集上分别实现了6.9、5.5和5.9个百分点的显著改进。”


目前,Florence-2的2.32亿和7.71亿参数的预训练版本和微调版本都已在Hugging Face上公开发布,并采用了宽松的MIT许可协议,允许商业或私人使用的无限制分发和修改。


接下来,我们将关注开发人员将如何利用Florence-2,以及它是否能够帮助消除对不同任务使用单独视觉模型的需求。这种小型、与任务无关的模型不仅将节省开发人员与不同模型打交道的时间和精力,还有望显著降低计算成本。

文章来源:https://venturebeat.com/ai/microsoft-drops-florence-2-a-unified-model-to-handle-a-variety-of-vision-tasks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消