数据集:
AhmedSSabir/Textual-Image-Caption-Dataset
语言:
en#更新:2023年6月,将visual_caption_cosine_score添加到软件/硬标签中(0.2、0.3、0.4和0.5)
现代图片标题非常依赖于从图像中提取知识,例如物体,以捕捉图像中的静态故事概念。在本文中,我们提出了一个文本视觉上下文数据集用于标题生成,其中公开可用的COCO标题数据集(Lin等,2014)已经扩展了关于场景的信息(例如图像中的物体)。由于这些信息具有文本形式,因此可以用于将任何NLP任务(例如文本相似性或语义关系方法)应用到标题生成系统中,无论是作为端到端训练策略还是基于后处理的方法。
有关更多信息,请参阅 project page 和 Github 。
快速开始,请查看 demo 和 pre-trained model with th 0.2, 0.3, 0.4 。
我们使用ResNet152、CLIP和Faster R-CNN为COCO-Caption添加了文本视觉上下文信息。我们使用三种过滤方法来确保数据集的质量:(1)阈值:过滤掉物体分类器不够自信的预测;(2)与语义相似性的语义对齐:去除重复的物体;(3)作为软标签的语义相关性分数:确保视觉上下文和标题之间有强关系。特别地,我们使用基于句子-RoBERTa-sts的余弦相似度给出一个软分数,然后使用阈值来标注最终的标签(如果th≥0.2、0.3、0.4,则为1,0)。最后,为了利用标题和视觉上下文之间的视觉重叠,并提取全局信息,我们使用BERT后跟一个浅层的1D-CNN(Kim,2014)来估计视觉相关性分数。
未来的工作计划是从标题中提取视觉上下文(不使用视觉分类器)并通过使用无监督学习(如对比学习)估计视觉相关性分数。(正在进行中)
有关本存储库的详细信息,请参阅下面的论文。如果您发现此存储库有用,请引用:
@article{sabir2023visual, title={Visual Semantic Relatedness Dataset for Image Captioning}, author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{\'o}, Llu{\'\i}s}, journal={arXiv preprint arXiv:2301.08784}, year={2023} }