数据集:

embedding-data/QQP_triplets

英文

"QQP_triplets" 数据集卡片

数据集概要

此数据集将为任何人提供使用实际 Quora 数据训练和测试语义等效模型的机会。数据以三元组(锚定、正例、负例)的形式组织。

免责声明:发布 Quora 数据的团队未上传数据集到 Hub,也未编写数据集卡片。这些步骤由 Hugging Face 团队完成。

支持的任务

语言

  • 英语。

数据集结构

每个示例是一个字典,包含三个键(query、pos 和 neg),每个键都包含一个列表(三元组)。第一个键包含一个锚定句子,第二个键包含一个正例句子,第三个键包含一系列负例句子。

{"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]}
{"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]}
...
{"query": [anchor], "pos": [positive], "neg": [negative1, negative2, ..., negativeN]}

该数据集对于训练 Sentence Transformers 模型很有用。请参考以下帖子了解如何训练它们。

使用示例

使用 pip install datasets 安装? Datasets 库,并从 Hub 中加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/QQP_triplets")

数据集被加载为 DatasetDict,并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 101762
    })
})

使用以下代码查看示例 i :

dataset["train"][i]["set"]

策展理由

More Information Needed

源数据

数据初始收集和标准化

More Information Needed

资源语言生产者是谁?

More Information Needed

标注

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

以下是关于此数据集需要牢记的一些重要事项:

  • 我们的原始采样方法返回了一个不平衡的数据集,其中真实的重复对示例比非重复对示例多很多。因此,我们补充了负例数据集。
  • 负例数据集的一个来源是“相关问题”对,尽管这些问题与相似的主题相关,但并非真正的语义等效。
  • 数据集中的问题分布不代表在 Quora 上提问的问题分布,部分原因是由于采样过程的组合以及对最终数据集应用了一些清理措施(例如移除了问题详情非常长的问题)。
  • 地面真实标签中存在一定的噪音:并不保证完美。

其他信息

数据集策展者

More Information Needed

许可信息

More Information Needed

引用信息

More Information Needed

贡献

感谢 Kornél Csernai Nikhil Dandekar Shankar Iyer 添加此数据集。