英文

#更新:2023年6月,将visual_caption_cosine_score添加到软件/硬标签中(0.2、0.3、0.4和0.5)

介绍

现代图片标题非常依赖于从图像中提取知识,例如物体,以捕捉图像中的静态故事概念。在本文中,我们提出了一个文本视觉上下文数据集用于标题生成,其中公开可用的COCO标题数据集(Lin等,2014)已经扩展了关于场景的信息(例如图像中的物体)。由于这些信息具有文本形式,因此可以用于将任何NLP任务(例如文本相似性或语义关系方法)应用到标题生成系统中,无论是作为端到端训练策略还是基于后处理的方法。

有关更多信息,请参阅 project page Github

快速开始,请查看 demo pre-trained model with th 0.2, 0.3, 0.4

概述

我们使用ResNet152、CLIP和Faster R-CNN为COCO-Caption添加了文本视觉上下文信息。我们使用三种过滤方法来确保数据集的质量:(1)阈值:过滤掉物体分类器不够自信的预测;(2)与语义相似性的语义对齐:去除重复的物体;(3)作为软标签的语义相关性分数:确保视觉上下文和标题之间有强关系。特别地,我们使用基于句子-RoBERTa-sts的余弦相似度给出一个软分数,然后使用阈值来标注最终的标签(如果th≥0.2、0.3、0.4,则为1,0)。最后,为了利用标题和视觉上下文之间的视觉重叠,并提取全局信息,我们使用BERT后跟一个浅层的1D-CNN(Kim,2014)来估计视觉相关性分数。

下载

  • Dowload Raw data with ID and Visual context ->带有相关ID标题 train2014 的原始数据集
  • Downlod Data with cosine score ->软余弦标签与th 0.2、0.3、0.4和0.5以及硬标签[0,1]
  • Dowload Overlaping visual with caption ->重叠的视觉上下文和人工注释的标题
  • Download Dataset (tsv file) 0.0->带有硬标签的原始数据,不包括余弦相似度,并具有阈值余弦相似度0.2、0.3、0.4之间的关系
  • Download Dataset GenderBias ->将man/woman替换为person类标签
  • 未来的工作计划是从标题中提取视觉上下文(不使用视觉分类器)并通过使用无监督学习(如对比学习)估计视觉相关性分数。(正在进行中)

  • Download CC ->从Conceptinal Caption(CC)2M(2255927个标题)中获取标题数据集
  • Download CC+wiki ->CC+1M-wiki 3M(3255928个标题)
  • Download CC+wiki+COCO ->CC+wiki+COCO-Caption 3.5M(366984个标题)
  • Download COCO-caption+wiki ->COCO-caption+wiki 1.4M(1413915个标题)
  • Download COCO-caption+wiki+CC+8Mwiki ->COCO-caption+wiki+CC+8Mwiki 11M(11541667个标题)
  • 引用

    有关本存储库的详细信息,请参阅下面的论文。如果您发现此存储库有用,请引用:

    @article{sabir2023visual,
      title={Visual Semantic Relatedness Dataset for Image Captioning},
      author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{\'o}, Llu{\'\i}s},
      journal={arXiv preprint arXiv:2301.08784},
      year={2023}
    }