数据集:

embedding-data/flickr30k_captions_quintets

语言:

许可:

mit

数据集介绍文件清单

英文

"flickr30k-captions"数据集卡片

数据集概要

我们提议使用语言表达的视觉指代（即它们描述的图像集合）来定义新的指代相似度度量，我们证明这些度量至少和分布相似度一样有益于两个需要语义推断的任务。为了计算这些指代相似度，我们根据一个包含30K张图像和150K个描述性标题的大型语料库构建了指代图，即对成分和它们的指代进行的上位包含关系。

免责声明：发布Flickr30k的团队未上传数据集到Hub，并未编写数据集卡片。这些步骤是由Hugging Face团队完成的。

支持的任务

Sentence Transformers 训练；对语义搜索和句子相似性很有用。

语言

英语。

数据集结构

数据集中的每个示例包含类似句子的五元组，并格式化为具有键"set"和以句子为"value"的列表的字典：

{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
...
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}

这个数据集对训练Sentence Transformers模型很有用。查阅以下帖子，了解如何使用类似句子对训练模型。

使用示例

使用pip install datasets安装?数据集库，并从Hub加载数据集：

from datasets import load_dataset

dataset = load_dataset("embedding-data/flickr30k-captions")

数据集被加载为DatasetDict，并具有以下格式：

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 31783
    })
})

使用以下代码查看示例i：

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed 谁是源语言制作人？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

More Information Needed

贡献

感谢Peter Young、Alice Lai、Micah Hodosh、Julia Hockenmaier添加了这个数据集。

作者:

embedding-data

数据集大小:

2.97 MB

"flickr30k-captions"数据集卡片

数据集概要

支持的任务

语言

数据集结构

使用示例

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献