数据集:

google_wellformed_query

预印本库:

arxiv:1808.09419

源数据集:

extended

批注创建人:

crowdsourced

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en

子任务:

text-scoring
英文

Google Query-wellformedness 数据集数据卡

数据集摘要

Google的查询格式良好性数据集是通过对Paralex语料库中的25,100个查询进行众包的格式良好性注释而创建的。每个查询都由五个评审者进行评注,评注结果是一个0/1的二进制值,表示查询是否格式良好。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

{'rating': 0.2, 'content': 'The European Union includes how many ?'}

数据字段

  • rating: 0-1之间的浮点数
  • sentence: 要评级的查询

数据拆分

Train Valid Test
Input Sentences 17500 3750 3850

数据集创建

策划理由

理解搜索查询是一个难题,因为它涉及处理用户普遍提出的“词沙拉”文本。然而,如果一个查询类似于格式良好的问题,自然语言处理流程能够进行更准确的解释,从而减少下游的错误。因此,确定查询是否格式良好可以增强查询的理解。该数据集引入了一个新的任务,即确定一个格式良好的自然语言问题。

数据源

使用了Paralex语料库(Fader et al., 2013),其中包含一对嘈杂的释义问题。这些问题是用户在WikiAnswers(一个问答论坛)中提出的,包括网络搜索查询类似的构造(“叶绿体的五个部分?”)和格式良好的问题(“盗窃罪的惩罚是什么?”)。

初始数据收集和规范化

从从语料库中提取的独特查询列表中选择了25,100个查询,以确保所选集合中没有两个查询是释义的。

谁是源语言生产者?

[需要更多信息]

批注

批注过程

如果查询满足以下条件,则将其标注为格式良好的或非格式良好的问题:

  • 查询是符合语法的。
  • 查询是明确的问题。
  • 查询不包含拼写错误。
  • 谁是批注者?

    每个查询由五个不同的众包工作者进行标注,用二进制标签表示查询是否格式良好。报告了五个标注者评分的平均值,以获得查询为格式良好的概率。

    个人和敏感信息

    [需要更多信息]

    使用数据时的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    [需要更多信息]

    许可信息

    Query-wellformedness 数据集基于 CC BY-SA 4.0 许可。任何第三方内容或数据都是“按原样”提供的,不附带任何明示或暗示的保证。

    引用信息

    @InProceedings{FaruquiDas2018,
       title = {{Identifying Well-formed Natural Language Questions}},
       author = {Faruqui, Manaal and Das, Dipanjan},
       booktitle = {Proc. of EMNLP},
       year = {2018}
    }
    

    贡献

    感谢 @vasudevgupta7 添加了这个数据集。