数据集:
embedding-data/QQP_triplets
此数据集将为任何人提供使用实际 Quora 数据训练和测试语义等效模型的机会。数据以三元组(锚定、正例、负例)的形式组织。
免责声明:发布 Quora 数据的团队未上传数据集到 Hub,也未编写数据集卡片。这些步骤由 Hugging Face 团队完成。
每个示例是一个字典,包含三个键(query、pos 和 neg),每个键都包含一个列表(三元组)。第一个键包含一个锚定句子,第二个键包含一个正例句子,第三个键包含一系列负例句子。
{"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]} {"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]} ... {"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]}
该数据集对于训练 Sentence Transformers 模型很有用。请参考以下帖子了解如何训练它们。
使用 pip install datasets 安装? Datasets 库,并从 Hub 中加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/QQP_triplets")
数据集被加载为 DatasetDict,并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 101762 }) })
使用以下代码查看示例 i :
dataset["train"][i]["set"]
以下是关于此数据集需要牢记的一些重要事项:
感谢 Kornél Csernai 、 Nikhil Dandekar 和 Shankar Iyer 添加此数据集。