数据集:
fquad
语言:
fr计算机处理:
monolingual大小:
1K<n<10K批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2002.06071许可:
cc-by-nc-sa-3.0FQuAD: 法语问答数据集我们介绍了FQuAD,一个法语问答数据集。
FQuAD包含了超过25,000个问题和答案对。在FQuAD上使用CamemBERT进行微调,可以获得88%的F1分数和77.9%的精确匹配度。该数据集旨在提供与法语语言中的SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。
请注意,本数据集仅用于非商业目的,用户必须同意以下条款和条件:
请手动请求从以下地址下载数据: https://fquad.illuin.tech/
此数据集仅限法语,其中上下文数据来自维基百科,问题来自法国大学生(fr)。
'validation'的一个示例如下所示。
This example was too long and was cropped: { "answers": { "answers_starts": [161, 46, 204], "texts": ["La Vierge aux rochers", "documents contemporains", "objets de spéculations"] }, "context": "\"Les deux tableaux sont certes décrits par des documents contemporains à leur création mais ceux-ci ne le font qu'indirectement ...", "questions": ["Que concerne principalement les documents ?", "Par quoi sont décrit les deux tableaux ?", "Quels types d'objets sont les deux tableaux aux yeux des chercheurs ?"] }
所有拆分的数据字段相同。
默认FQuAD数据集有3个拆分: train , validation ,和 test 。但是目前尚未公开发布 test 拆分。这些拆分包含不重叠的文章集合。下表包含每个拆分的统计信息。
Dataset Split | Number of Articles in Split | Number of paragraphs in split | Number of questions in split |
---|---|---|---|
Train | 117 | 4921 | 20731 |
Validation | 768 | 51.0% | 3188 |
Test | 10 | 532 | 2189 |
FQuAD数据集由Illuin Technology创建。它旨在提供与法语语言中SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。
上下文中使用的文本来自经过筛选的法语高质量维基百科列表 articles 。
注释(跨度和问题)由法国CentraleSupélec工程学院的学生编写。维基百科文章经过抓取,并且Illuin使用了一种内部开发的工具来帮助注释者提出问题并指示答案跨度。注释者被提供了段落大小的上下文,并被要求根据上下文中的信息产生4/5个非平凡的问题。
此数据集中不包含个人或敏感信息。数据集策划者已经进行了手动验证。
用户应该考虑到这个数据集是从维基百科数据中取样的,可能不代表所有问答使用案例。
尚未调查此数据集的社会偏见。
尚未调查此数据集的社会偏见,尽管文章是根据其质量和客观性进行选择的。
尚未调查FQuAD数据集的局限性。
Illuin Technology: https://fquad.illuin.tech/
FQuAD数据集根据 CC BY-NC-SA 3.0 许可。
它允许个人和学术研究使用该数据集,但不允许商业使用。因此,对于这种商业用途,我们邀请FQuAD用户联系 the authors 讨论可能的合作伙伴关系。
@ARTICLE{2020arXiv200206071 author = {Martin, d'Hoffschmidt and Maxime, Vidal and Wacim, Belblidia and Tom, Brendlé}, title = "{FQuAD: French Question Answering Dataset}", journal = {arXiv e-prints}, keywords = {Computer Science - Computation and Language}, year = "2020", month = "Feb", eid = {arXiv:2002.06071}, pages = {arXiv:2002.06071}, archivePrefix = {arXiv}, eprint = {2002.06071}, primaryClass = {cs.CL} }
感谢 @thomwolf , @mariamabarham , @patrickvonplaten , @lewtun , @albertvillanova 添加了该数据集。感谢 @ManuelFay 提供了关于数据集创建过程的信息。