数据集:

asnq

预印本库:

arxiv:1911.04118

批注创建人:

crowdsourced

语言创建人:

found

大小:

10M<n<100M

计算机处理:

monolingual

语言:

en
英文

"asnq" 数据集卡片

数据集概述

ASNQ是从Google的自然问题(NQ)数据集(Kwiatkowski et al. 2019)中派生的用于答案句子选择的数据集。

每个示例包含一个问题,候选句子,指示句子是否回答问题的标签,以及两个额外的特征--sentence_in_long_answer和short_answer_in_sentence,分别指示候选句子是否包含在long_answer中,以及short_answer是否位于候选句子中。

有关更多详细信息,请参阅 https://arxiv.org/abs/1911.04118

https://research.google/pubs/pub47761/

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:3.56 GB
  • 生成的数据集大小:3.82 GB
  • 使用的磁盘总量:7.39 GB

'验证'的示例如下所示。

{
    "label": 0,
    "question": "when did somewhere over the rainbow come out",
    "sentence": "In films and TV shows ( edit ) In the film Third Finger , Left Hand ( 1940 ) with Myrna Loy , Melvyn Douglas , and Raymond Walburn , the tune played throughout the film in short sequences .",
    "sentence_in_long_answer": false,
    "short_answer_in_sentence": false
}

数据字段

数据字段在所有拆分之间是相同的。

default
  • question: string feature.
  • sentence: string feature.
  • label: 具有以下可能值的分类标签: neg (0),pos (1)。
  • sentence_in_long_answer: bool feature.
  • short_answer_in_sentence: bool feature.

数据拆分

name train validation
default 20377568 930062

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据可在创作共用署名-非商业性使用-相同方式共享3.0未本地化许可下使用: https://github.com/alexa/wqa_tanda/blob/master/LICENSE

引用信息

@article{Garg_2020,
   title={TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection},
   volume={34},
   ISSN={2159-5399},
   url={http://dx.doi.org/10.1609/AAAI.V34I05.6282},
   DOI={10.1609/aaai.v34i05.6282},
   number={05},
   journal={Proceedings of the AAAI Conference on Artificial Intelligence},
   publisher={Association for the Advancement of Artificial Intelligence (AAAI)},
   author={Garg, Siddhant and Vu, Thuy and Moschitti, Alessandro},
   year={2020},
   month={Apr},
   pages={7780–7788}
}

贡献

感谢 @mkserge 添加了这个数据集。