模型:
google/matcha-plotqa-v2
该模型是MatCha模型,在plotQA-v2数据集上进行了微调。这个微调模型可能更适合用于绘图问题回答任务。
论文摘要表明:
视觉语言数据,如图表和信息图,在人类世界中是无处不在的。然而,最先进的视觉语言模型在这些数据上表现不佳。我们提出了MATCHA(数学推理和图谱解构预训练)来增强视觉语言模型的能力,同时联合建模图表/绘图和语言数据。具体来说,我们提出了几个预训练任务,涵盖了图谱解构和数值推理,这是视觉语言建模的关键能力。我们从最近提出的图像到文本视觉语言模型Pix2Struct开始进行MATCHA预训练。在PlotQA和ChartQA等标准基准测试上,MATCHA模型的性能优于最先进方法,差距最多近20%。我们还研究了MATCHA预训练在屏幕截图、教科书图表和文档图像等领域的转移情况,并观察到整体改进,验证了MATCHA预训练在更广泛的视觉语言任务中的有用性。
您可以按照以下方式使用 convert_pix2struct_checkpoint_to_pytorch.py 脚本:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa
如果要转换大型模型,请运行:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa
保存后,可以使用以下代码片段推送已转换的模型:
from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE) processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE) model.push_to_hub("USERNAME/MODEL_NAME") processor.push_to_hub("USERNAME/MODEL_NAME")
要运行预测,请参考 instructions presented in the matcha-chartqa model card 。
该模型最初由Fangyu Liu、Francesco Piccinno等贡献,并由 Younes Belkada 添加到Hugging Face生态系统中。
如果您想引用这项工作,请考虑引用原始论文:
@misc{liu2022matcha, title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos}, year={2022}, eprint={2212.09662}, archivePrefix={arXiv}, primaryClass={cs.CL} }