模型:

google/matcha-chart2text-statista

英文

MatCha - 在Chart2text-statista上进行微调的模型卡片

这个模型是MatCha模型,在Chart2text-statista数据集上进行了微调。该微调的检查点可能更适合图表摘要任务。

目录

  • TL;DR
  • 使用模型
  • 贡献
  • 引用
  • TL;DR

    该论文的摘要陈述如下:

    视觉语言数据,如图表和信息图,在人类世界中无处不在。然而,最先进的视觉语言模型在这些数据上表现不佳。我们提出了MATCHA(数学推理和图表推导预训练),以增强视觉语言模型对图表/绘图和语言数据的能力。具体而言,我们提出了几个预训练任务,涵盖了图表拆解和数字推理,这是视觉语言建模中的关键能力。我们以最近提出的图像到文本视觉语言模型Pix2Struct为起点进行MATCHA预训练。在PlotQA和ChartQA等标准基准测试中,MATCHA模型的性能超过最先进的方法近20%。我们还检查了MATCHA预训练在屏幕截图、教科书图表和文档图形等领域的迁移效果,并观察到整体改进,验证了MATCHA预训练在更广泛的视觉语言任务上的有用性。

    使用模型

    从T5x转换到huggingface

    您可以使用以下脚本进行转换:

    python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa
    

    如果要转换一个大模型,请运行:

    python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa
    

    保存后,您可以使用以下代码段推送您转换的模型:

    from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
    
    model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
    processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)
    
    model.push_to_hub("USERNAME/MODEL_NAME")
    processor.push_to_hub("USERNAME/MODEL_NAME")
    

    运行预测

    要运行预测,请参考 instructions presented in the matcha-chartqa model card

    贡献

    此模型最初由Fangyu Liu、Francesco Piccinno等人贡献,并由 Younes Belkada 加入了Hugging Face生态系统。

    引用

    如果您希望引用此工作,请考虑引用原始论文:

    @misc{liu2022matcha,
          title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
          author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
          year={2022},
          eprint={2212.09662},
          archivePrefix={arXiv},
          primaryClass={cs.CL}
    }