数据集:
embedding-data/coco_captions_quintets
COCO 是一个大规模的目标检测、分割和字幕数据集。该数据集包含每张图像的五个描述,适用于句子相似性任务。
免责声明:发布 COCO 数据集的团队未将数据集上传至 Hub,并未编写数据集卡片。这些步骤由 Hugging Face 团队完成。
数据集中的每个示例包含相似句子的集合,格式为一个字典,键名为 "set",值为句子列表。
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]} {"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]} ... {"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
该数据集适用于训练 Sentence Transformers 模型。请参考下面的文章,了解如何使用相似的句子对训练模型。
使用以下命令安装 ? Datasets 库: pip install datasets ,然后使用 Hub 加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/coco_captions")
数据集加载为 DatasetDict,并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 82783 }) })
使用以下代码检查第 i 个示例:
dataset["train"][i]["set"]
该数据集中的注释及此网站归 COCO 联盟所有,并根据 Creative Commons Attribution 4.0 License 许可。
感谢:
感谢以上贡献者添加此数据集。