数据集:

embedding-data/flickr30k_captions_quintets

语言:

en

许可:

mit
英文

"flickr30k-captions"数据集卡片

数据集概要

我们提议使用语言表达的视觉指代(即它们描述的图像集合)来定义新的指代相似度度量,我们证明这些度量至少和分布相似度一样有益于两个需要语义推断的任务。为了计算这些指代相似度,我们根据一个包含30K张图像和150K个描述性标题的大型语料库构建了指代图,即对成分和它们的指代进行的上位包含关系。

免责声明:发布Flickr30k的团队未上传数据集到Hub,并未编写数据集卡片。这些步骤是由Hugging Face团队完成的。

支持的任务

语言

  • 英语。

数据集结构

数据集中的每个示例包含类似句子的五元组,并格式化为具有键"set"和以句子为"value"的列表的字典:

{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
...
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}

这个数据集对训练Sentence Transformers模型很有用。查阅以下帖子,了解如何使用类似句子对训练模型。

使用示例

使用pip install datasets安装?数据集库,并从Hub加载数据集:

from datasets import load_dataset

dataset = load_dataset("embedding-data/flickr30k-captions")

数据集被加载为DatasetDict,并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 31783
    })
})

使用以下代码查看示例i:

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed 谁是源语言制作人?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

More Information Needed

贡献

感谢Peter Young、Alice Lai、Micah Hodosh、Julia Hockenmaier添加了这个数据集。