数据集:
embedding-data/WikiAnswers
WikiAnswers语料库包含由WikiAnswers用户标记为释义的问题簇。每个簇可以包含由WikiAnswers用户提供的答案。共有30,370,994个簇,平均每个簇有25个问题。其中3,386,256个簇(11%)有答案。
数据集中的每个示例包含25个等效句子,并被格式化为具有键“set”和以句子为“value”的列表的字典。
{"set": [sentence_1, sentence_2, ..., sentence_25]} {"set": [sentence_1, sentence_2, ..., sentence_25]} ... {"set": [sentence_1, sentence_2, ..., sentence_25]}
此数据集可用于训练Sentence Transformers模型。有关如何使用相似句子训练模型的详细信息,请参考以下帖子。
使用 pip install datasets 安装? Datasets库,并使用以下方式从Hub加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/WikiAnswers")
数据集加载为 DatasetDict,并具有以下格式的 N 个示例:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: N }) })
使用以下方式查看示例 i :
dataset["train"][i]["set"]
@inproceedings{Fader14, author = {Anthony Fader and Luke Zettlemoyer and Oren Etzioni}, title = {{Open Question Answering Over Curated and Extracted Knowledge Bases}}, booktitle = {KDD}, year = {2014} }