数据集:

embedding-data/SPECTER

英文

数据集卡片 - "SPECTER"

数据集简介

包含三个句子(锚定句、正例句和负例句)的数据集。句子是由论文标题构成的。

免责声明:发布 SPECTER 模型的团队未将数据集上传至 Hub,且未编写数据集卡片。这些步骤由 Hugging Face 团队完成。

数据集结构

数据集中的每个样本都包含等价句子的三元组,并以字典的形式进行格式化,其中键“set”对应的值是一个句子列表。

每个示例都是一个字典,其中键 "set" 包含一个包含三个句子(锚定句、正例句和负例句)的列表。

{"set": [anchor, positive, negative]}
{"set": [anchor, positive, negative]}
...
{"set": [anchor, positive, negative]}

该数据集对于训练 Sentence Transformers 模型非常有用。请参考以下帖子以了解如何使用三元组训练模型。

使用示例

使用 pip install datasets 安装 ? Datasets 库,并从 Hub 加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/SPECTER")

数据集被加载为一个 DatasetDict,并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 684100
    })
})

查看第 i 个示例:

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

初始数据收集和归一化处理

More Information Needed

语言生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人信息和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划

More Information Needed

许可信息

More Information Needed

引用信息

贡献