数据集:
elkarhizketak
任务:
问答子任务:
extractive-qa语言:
eu计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original其他:
dialogue-qa许可:
cc-by-sa-4.0ElkarHizketak 是巴斯克语制作的低资源对话问答(QA)数据集,由巴斯克语使用者志愿者创建。该数据集包含近400个对话和1600多个问题和答案,其规模较小,为对话式QA系统提供了现实中的低资源场景。该数据集是基于维基百科关于知名人物和组织的部分构建的。对话涉及两个群众工作者:(1)学生在阅读有关人物的简短介绍后提问,但没有看到该部分的文本;(2)教师回答问题,选择该部分的文本范围。
数据集中的文本为巴斯克语。
训练集中的一个示例:
{'dialogue_id': 'C_50be3f56f0d04c99a82f1f950baf0c2d', 'wikipedia_page_title': 'Howard Becker', 'background': 'Howard Saul Becker (Chicago,Illinois, 1928ko apirilaren 18an) Estatu Batuetako soziologoa bat da. Bere ekarpen handienak desbiderakuntzaren soziologian, artearen soziologian eta musikaren soziologian egin ditu. "Outsiders" (1963) bere lanik garrantzitsuetako da eta bertan garatu zuen bere etiketatze-teoria. Nahiz eta elkarrekintza sinbolikoaren edo gizarte-konstruktibismoaren korronteen barruan sartu izan, berak ez du bere burua inongo paradigman kokatzen. Chicagoko Unibertsitatean graduatua, Becker Chicagoko Soziologia Eskolako bigarren belaunaldiaren barruan kokatu ohi da, Erving Goffman eta Anselm Strauss-ekin batera.', 'section_title': 'Hastapenak eta hezkuntza.', 'context': 'Howard Saul Becker Chicagon jaio zen 1928ko apirilaren 18an. Oso gazte zelarik piano jotzen asi zen eta 15 urte zituenean dagoeneko tabernetan aritzen zen pianoa jotzen. Beranduago Northwestern Unibertsitateko banda batean jo zuen. Beckerren arabera, erdi-profesional gisa aritu ahal izan zen Bigarren Mundu Gerra tokatu eta musikari gehienak soldadugai zeudelako. Musikari bezala egin zuen lan horretan egin zuen lehen aldiz drogaren kulturaren ezagutza, aurrerago ikerketa-gai hartuko zuena. 1946an bere graduazpiko soziologia titulua lortu zuen Chicagoko Unibertsitatean. Ikasten ari zen bitartean, pianoa jotzen jarraitu zuen modu erdi-profesionalean. Hala ere, soziologiako masterra eta doktoretza eskuratu zituen Chicagoko Unibertsitatean. Unibertsitate horretan Chicagoko Soziologia Eskolaren jatorrizko tradizioaren barruan hezia izan zen. Chicagoko Soziologia Eskolak garrantzi berezia ematen zion datu kualitatiboen analisiari eta Chicagoko hiria hartzen zuen ikerketa eremu bezala. Beckerren hasierako lan askok eskola honen tradizioaren eragina dute, bereziko Everett C. Hughes-en eragina, bere tutore eta gidari izan zena. Askotan elkarrekintzaile sinboliko bezala izendatua izan da, nahiz eta Beckerek berak ez duen gogoko izendapen hori. Haren arabera, bere leinu akademikoa Georg Simmel, Robert E. Park eta Everett Hughes dira. Doktoretza lortu ostean, 23 urterekin, Beckerrek marihuanaren erabilpena ikertu zuen "Institut for Juvenil Reseac"h-en. Ondoren Illinoisko Unibertsitatean eta Standfor Unibertsitateko ikerketa institutu batean aritu zen bere irakasle karrera hasi aurretik. CANNOTANSWER', 'turn_id': 'C_50be3f56f0d04c99a82f1f950baf0c2d_q#0', 'question': 'Zer da desbiderakuntzaren soziologia?', 'yesno': 2, 'answers': {'text': ['CANNOTANSWER'], 'answer_start': [1601], 'input_text': ['CANNOTANSWER']}, 'orig_answer': {'text': 'CANNOTANSWER', 'answer_start': 1601}}
不同的字段为:
数据分为训练集、开发集和测试集。拆分大小如下:
这是第一个非英语的对话式QA数据集,也是巴斯克语的第一个对话式数据集。其规模较小,为对话式QA系统提供了现实中的低资源场景。
首先,我们选择关于人物的维基百科文章的部分,因为与其他类别相比,与人物相关的对话所需的专业知识较少。为了检索文章,我们在巴斯克语维基百科中选择了以下类别:Biografia(Biography是英语维基百科的等效类别)、Biografiak(People)和Gizabanako biziak(Living people)。我们应用了该类别过滤器,并使用维基媒体基金会提供的查询工具下载了文章。在检索到文章之后,我们从中选择包含175至300个单词的部分。这些过滤器和阈值是在一些试点研究后设置的,我们在其中检查所选文章中涉及的人物的适应性和段落的长度,以便获得足够但不过多的信息以进行对话。
然后,在我们与巴斯克语使用者安排的一些在线会议期间收集了对话。对话涉及两个群众工作者:(1)学生在阅读有关人物的简短介绍后提问,但没有看到该部分的文本;(2)教师回答问题,选择该部分的文本范围。
谁是源语言生成者?语言生成者是巴斯克语使用者志愿者,他们使用专为此目的开发的基于文本的聊天界面进行对话。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集由巴斯克国立大学(UPV/EHU)的Arantxa Otegi、Jon Ander Campos、Aitor Soroa和Eneko Agirre创建。
版权所有 (C) 由Ixa Taldea、巴斯克国立大学UPV/EHU。
该数据集采用创作共用署名-相同方式分享 4.0 国际公共许可证 (CC BY-SA 4.0) 授权。要查看此许可证的副本,请访问 https://creativecommons.org/licenses/by-sa/4.0/legalcode 。
如果您在您的工作中使用了该数据集,请引用此出版物:
@inproceedings{otegi-etal-2020-conversational, title = "{Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque}", author = "Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.55", pages = "436--442" }
感谢 @antxa 添加了该数据集。