数据集:
google_wellformed_query
许可:
cc-by-sa-4.0预印本库:
arxiv:1808.09419源数据集:
extended批注创建人:
crowdsourced语言创建人:
found大小:
10K<n<100K计算机处理:
monolingual语言:
en子任务:
text-scoring任务:
文本分类Google的查询格式良好性数据集是通过对Paralex语料库中的25,100个查询进行众包的格式良好性注释而创建的。每个查询都由五个评审者进行评注,评注结果是一个0/1的二进制值,表示查询是否格式良好。
[需要更多信息]
英语
{'rating': 0.2, 'content': 'The European Union includes how many ?'}
Train | Valid | Test | |
---|---|---|---|
Input Sentences | 17500 | 3750 | 3850 |
理解搜索查询是一个难题,因为它涉及处理用户普遍提出的“词沙拉”文本。然而,如果一个查询类似于格式良好的问题,自然语言处理流程能够进行更准确的解释,从而减少下游的错误。因此,确定查询是否格式良好可以增强查询的理解。该数据集引入了一个新的任务,即确定一个格式良好的自然语言问题。
使用了Paralex语料库(Fader et al., 2013),其中包含一对嘈杂的释义问题。这些问题是用户在WikiAnswers(一个问答论坛)中提出的,包括网络搜索查询类似的构造(“叶绿体的五个部分?”)和格式良好的问题(“盗窃罪的惩罚是什么?”)。
初始数据收集和规范化从从语料库中提取的独特查询列表中选择了25,100个查询,以确保所选集合中没有两个查询是释义的。
谁是源语言生产者?[需要更多信息]
如果查询满足以下条件,则将其标注为格式良好的或非格式良好的问题:
每个查询由五个不同的众包工作者进行标注,用二进制标签表示查询是否格式良好。报告了五个标注者评分的平均值,以获得查询为格式良好的概率。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Query-wellformedness 数据集基于 CC BY-SA 4.0 许可。任何第三方内容或数据都是“按原样”提供的,不附带任何明示或暗示的保证。
@InProceedings{FaruquiDas2018, title = {{Identifying Well-formed Natural Language Questions}}, author = {Faruqui, Manaal and Das, Dipanjan}, booktitle = {Proc. of EMNLP}, year = {2018} }
感谢 @vasudevgupta7 添加了这个数据集。