模型:

hfl/vle-large-for-vqa

英文
VLE(Visual-Language Encoder)是一个基于预训练的文本和图像编码器构建的图像文本多模态理解模型。它可以用于多模态的辨别性任务,如视觉问答和图像文本检索。在视觉常识推理(Visual Commonsense Reasoning,VCR)任务中,特别是需要高级语言理解和推理能力的任务上,VLE实现了显著的改进。 更多细节请参见 https://github.com/iflytek/VLE 。 Visual Question Answering的在线VLE演示: https://huggingface.co/spaces/hfl/VQA_VLE_LLM