模型:

hfl/vle-base-for-vqa

英文

VLE(Visual Language Encoder)是一个基于预训练的文本和图像编码器的图像-文本多模态理解模型。它可以用于多模态辨别性任务,如视觉问答和图像-文本检索。在需要高级语言理解和推理技能的视觉常识推理(VCR)任务中,VLE取得了显著的改进。

有关更多详细信息,请参见 https://github.com/iflytek/VLE

Visual Question Answering的在线VLE演示: https://huggingface.co/spaces/hfl/VQA_VLE_LLM