数据集:

elkarhizketak

任务:

问答

子任务:

extractive-qa

语言:

eu

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original
英文

ElkarHizketak 数据集卡片

数据集简介

ElkarHizketak 是巴斯克语制作的低资源对话问答(QA)数据集,由巴斯克语使用者志愿者创建。该数据集包含近400个对话和1600多个问题和答案,其规模较小,为对话式QA系统提供了现实中的低资源场景。该数据集是基于维基百科关于知名人物和组织的部分构建的。对话涉及两个群众工作者:(1)学生在阅读有关人物的简短介绍后提问,但没有看到该部分的文本;(2)教师回答问题,选择该部分的文本范围。

支持的任务和排行榜

  • 抽取式问答:该数据集可用于训练对话式问答模型。

语言

数据集中的文本为巴斯克语。

数据集结构

数据实例

训练集中的一个示例:

{'dialogue_id': 'C_50be3f56f0d04c99a82f1f950baf0c2d',
 'wikipedia_page_title': 'Howard Becker',
 'background': 'Howard Saul Becker (Chicago,Illinois, 1928ko apirilaren 18an) Estatu Batuetako soziologoa bat da. Bere ekarpen handienak desbiderakuntzaren soziologian, artearen soziologian eta musikaren soziologian egin ditu. "Outsiders" (1963) bere lanik garrantzitsuetako da eta bertan garatu zuen bere etiketatze-teoria. Nahiz eta elkarrekintza sinbolikoaren edo gizarte-konstruktibismoaren korronteen barruan sartu izan, berak ez du bere burua inongo paradigman kokatzen. Chicagoko Unibertsitatean graduatua, Becker Chicagoko Soziologia Eskolako bigarren belaunaldiaren barruan kokatu ohi da, Erving Goffman eta Anselm Strauss-ekin batera.',
 'section_title': 'Hastapenak eta hezkuntza.',
 'context': 'Howard Saul Becker Chicagon jaio zen 1928ko apirilaren 18an. Oso gazte zelarik piano jotzen asi zen eta 15 urte zituenean dagoeneko tabernetan aritzen zen pianoa jotzen. Beranduago Northwestern Unibertsitateko banda batean jo zuen. Beckerren arabera, erdi-profesional gisa aritu ahal izan zen Bigarren Mundu Gerra tokatu eta musikari gehienak soldadugai zeudelako. Musikari bezala egin zuen lan horretan egin zuen lehen aldiz drogaren kulturaren ezagutza, aurrerago ikerketa-gai hartuko zuena. 1946an bere graduazpiko soziologia titulua lortu zuen Chicagoko Unibertsitatean. Ikasten ari zen bitartean, pianoa jotzen jarraitu zuen modu erdi-profesionalean. Hala ere, soziologiako masterra eta doktoretza eskuratu zituen Chicagoko Unibertsitatean. Unibertsitate horretan Chicagoko Soziologia Eskolaren jatorrizko tradizioaren barruan hezia izan zen. Chicagoko Soziologia Eskolak garrantzi berezia ematen zion datu kualitatiboen analisiari eta Chicagoko hiria hartzen zuen ikerketa eremu bezala. Beckerren hasierako lan askok eskola honen tradizioaren eragina dute, bereziko Everett C. Hughes-en eragina, bere tutore eta gidari izan zena. Askotan elkarrekintzaile sinboliko bezala izendatua izan da, nahiz eta Beckerek berak ez duen gogoko izendapen hori. Haren arabera, bere leinu akademikoa Georg Simmel, Robert E. Park eta Everett Hughes dira. Doktoretza lortu ostean, 23 urterekin, Beckerrek marihuanaren erabilpena ikertu zuen "Institut for Juvenil Reseac"h-en. Ondoren Illinoisko Unibertsitatean eta Standfor Unibertsitateko ikerketa institutu batean aritu zen bere irakasle karrera hasi aurretik. CANNOTANSWER',
 'turn_id': 'C_50be3f56f0d04c99a82f1f950baf0c2d_q#0',
 'question': 'Zer da desbiderakuntzaren soziologia?',
 'yesno': 2,
 'answers': {'text': ['CANNOTANSWER'],
  'answer_start': [1601],
  'input_text': ['CANNOTANSWER']},
 'orig_answer': {'text': 'CANNOTANSWER', 'answer_start': 1601}}

数据字段

不同的字段为:

  • 对话ID:字符串,
  • 维基百科页面标题:字符串形式的页面标题,
  • 背景:字符串,
  • 部分标题:字符串形式的部分标题,
  • 上下文:字符串形式的问题上下文字符串,
  • 轮次ID:字符串,
  • 问题:问题字符串形式,
  • 是非问题:表示问题是否为是/否问题的类标签。可能的值为"y"(0),"n"(1),"x"(2),
  • 答案:带有三个字段的字典:
    • 文本:答案文本的字符串列表,
    • 答案起始位置:答案在上下文中的位置的int32列表,
    • 输入文本:字符串列表,}),
  • 原始答案:{
    • 文本:原始答案文本的字符串,
    • 答案起始位置:答案的原始位置为int32,},

数据拆分

数据分为训练集、开发集和测试集。拆分大小如下:

  • 训练集:1306个问题/301个对话
  • 开发集:161个问题/38个对话
  • 测试集:167个问题/38个对话

数据集创建

策划理由

这是第一个非英语的对话式QA数据集,也是巴斯克语的第一个对话式数据集。其规模较小,为对话式QA系统提供了现实中的低资源场景。

源数据

初始数据收集和归一化

首先,我们选择关于人物的维基百科文章的部分,因为与其他类别相比,与人物相关的对话所需的专业知识较少。为了检索文章,我们在巴斯克语维基百科中选择了以下类别:Biografia(Biography是英语维基百科的等效类别)、Biografiak(People)和Gizabanako biziak(Living people)。我们应用了该类别过滤器,并使用维基媒体基金会提供的查询工具下载了文章。在检索到文章之后,我们从中选择包含175至300个单词的部分。这些过滤器和阈值是在一些试点研究后设置的,我们在其中检查所选文章中涉及的人物的适应性和段落的长度,以便获得足够但不过多的信息以进行对话。

然后,在我们与巴斯克语使用者安排的一些在线会议期间收集了对话。对话涉及两个群众工作者:(1)学生在阅读有关人物的简短介绍后提问,但没有看到该部分的文本;(2)教师回答问题,选择该部分的文本范围。

谁是源语言生成者?

语言生成者是巴斯克语使用者志愿者,他们使用专为此目的开发的基于文本的聊天界面进行对话。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集由巴斯克国立大学(UPV/EHU)的Arantxa Otegi、Jon Ander Campos、Aitor Soroa和Eneko Agirre创建。

许可信息

版权所有 (C) 由Ixa Taldea、巴斯克国立大学UPV/EHU。

该数据集采用创作共用署名-相同方式分享 4.0 国际公共许可证 (CC BY-SA 4.0) 授权。要查看此许可证的副本,请访问 https://creativecommons.org/licenses/by-sa/4.0/legalcode

引用信息

如果您在您的工作中使用了该数据集,请引用此出版物:

@inproceedings{otegi-etal-2020-conversational,
    title = "{Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque}",
    author = "Otegi, Arantxa  and
      Agirre, Aitor  and
      Campos, Jon Ander  and
      Soroa, Aitor  and
      Agirre, Eneko",
    booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference",
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2020.lrec-1.55",
    pages = "436--442"
}

贡献

感谢 @antxa 添加了该数据集。