数据集:
boolq
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original许可:
cc-by-sa-3.0BoolQ 是一个用于回答是/否问题的数据集,包含15942个样例。这些问题是自然出现的——在无提示和无约束的环境中生成的。每个样例是一个三元组(问题、段落、答案),标题作为可选的附加上下文。文本对分类的设置类似于现有的自然语言推理任务。
"验证"的一个例子如下所示。
This example was too long and was cropped: { "answer": false, "passage": "\"All biomass goes through at least some of these steps: it needs to be grown, collected, dried, fermented, distilled, and burned...", "question": "does ethanol take more energy make that produces" }
所有分割的数据字段都是相同的。
默认name | train | validation |
---|---|---|
default | 9427 | 3270 |
BoolQ 在 Creative Commons Share-Alike 3.0 许可下发布。
@inproceedings{clark2019boolq, title = {BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions}, author = {Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina}, booktitle = {NAACL}, year = {2019}, }
感谢 @lewtun 、 @lhoestq 、 @thomwolf 、 @patrickvonplaten 、 @albertvillanova 添加了这个数据集。