我们提议使用语言表达的视觉指代(即它们描述的图像集合)来定义新的指代相似度度量,我们证明这些度量至少和分布相似度一样有益于两个需要语义推断的任务。为了计算这些指代相似度,我们根据一个包含30K张图像和150K个描述性标题的大型语料库构建了指代图,即对成分和它们的指代进行的上位包含关系。
免责声明:发布Flickr30k的团队未上传数据集到Hub,并未编写数据集卡片。这些步骤是由Hugging Face团队完成的。
数据集中的每个示例包含类似句子的五元组,并格式化为具有键"set"和以句子为"value"的列表的字典:
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]} {"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]} ... {"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
这个数据集对训练Sentence Transformers模型很有用。查阅以下帖子,了解如何使用类似句子对训练模型。
使用pip install datasets安装?数据集库,并从Hub加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/flickr30k-captions")
数据集被加载为DatasetDict,并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 31783 }) })
使用以下代码查看示例i:
dataset["train"][i]["set"]
初始数据收集和规范化
More Information Needed 谁是源语言制作人?感谢Peter Young、Alice Lai、Micah Hodosh、Julia Hockenmaier添加了这个数据集。