数据集:

embedding-data/WikiAnswers

英文

"WikiAnswers"数据集卡

数据集概述

WikiAnswers语料库包含由WikiAnswers用户标记为释义的问题簇。每个簇可以包含由WikiAnswers用户提供的答案。共有30,370,994个簇,平均每个簇有25个问题。其中3,386,256个簇(11%)有答案。

支持的任务

语言

  • 英语。

数据集结构

数据集中的每个示例包含25个等效句子,并被格式化为具有键“set”和以句子为“value”的列表的字典。

{"set": [sentence_1, sentence_2, ..., sentence_25]}
{"set": [sentence_1, sentence_2, ..., sentence_25]}
...
{"set": [sentence_1, sentence_2, ..., sentence_25]}

此数据集可用于训练Sentence Transformers模型。有关如何使用相似句子训练模型的详细信息,请参考以下帖子。

使用示例

使用 pip install datasets 安装? Datasets库,并使用以下方式从Hub加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/WikiAnswers")

数据集加载为 DatasetDict,并具有以下格式的 N 个示例:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: N
    })
})

使用以下方式查看示例 i :

dataset["train"][i]["set"]

数据实例

数据字段

数据拆分

数据集创建

策划原因

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{Fader14,
    author    = {Anthony Fader and Luke Zettlemoyer and Oren Etzioni},
    title     = {{Open Question Answering Over Curated and Extracted
                Knowledge Bases}},
    booktitle = {KDD},
    year      = {2014}
}

贡献