数据集:
embedding-data/SPECTER
包含三个句子(锚定句、正例句和负例句)的数据集。句子是由论文标题构成的。
免责声明:发布 SPECTER 模型的团队未将数据集上传至 Hub,且未编写数据集卡片。这些步骤由 Hugging Face 团队完成。
数据集中的每个样本都包含等价句子的三元组,并以字典的形式进行格式化,其中键“set”对应的值是一个句子列表。
每个示例都是一个字典,其中键 "set" 包含一个包含三个句子(锚定句、正例句和负例句)的列表。
{"set": [anchor, positive, negative]} {"set": [anchor, positive, negative]} ... {"set": [anchor, positive, negative]}
该数据集对于训练 Sentence Transformers 模型非常有用。请参考以下帖子以了解如何使用三元组训练模型。
使用 pip install datasets 安装 ? Datasets 库,并从 Hub 加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/SPECTER")
数据集被加载为一个 DatasetDict,并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 684100 }) })
查看第 i 个示例:
dataset["train"][i]["set"]