模型:

hfl/vle-large-for-vcr-qa2r

英文

VLE(Visual Language Encoder)是基于预训练的文本和图像编码器构建的图像-文本多模式理解模型。它可用于多模式的区分性任务,如视觉问答和图像-文本检索。尤其在需要高级语言理解和推理能力的视觉常识推理(VCR)任务中,VLE取得了显著的改进。

详细信息请参见 https://github.com/iflytek/VLE

在Visual Question Answering的在线VLE演示: https://huggingface.co/spaces/hfl/VQA_VLE_LLM