数据集:
embedding-data/PAQ_pairs
从维基百科中获取的问题和答案配对数据。
免责声明:发布PAQ QA配对数据的团队未将数据集上传到Hub,也未编写数据卡。这些步骤是由Hugging Face团队完成的。
数据集中的每个示例包含句子对,格式为字典,键为"set",值为句子列表。第一句是一个问题,第二句是答案;因此,两个句子会很相似。
{"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}
这个数据集对于训练句子转换模型非常有用。请参考以下帖子,了解如何使用类似的句子对训练模型。
使用 pip install datasets 安装?数据集库,并从Hub加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/PAQ_pairs")
数据集加载为 DatasetDict 格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 64371441 }) })
使用以下方法查看示例 i :
dataset["train"][i]["set"]
PAQ QA-pairs和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。
@article{lewis2021paq, title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel}, year={2021}, eprint={2102.07033}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @patrick-s-h-lewis 添加了这个数据集。