数据集:

fquad

任务:

问答

文本检索

子任务:

extractive-qa closed-domain-qa

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2002.06071

许可:

cc-by-nc-sa-3.0

数据集介绍文件清单

英文

FQuAD数据集卡片

数据集概述

FQuAD: 法语问答数据集我们介绍了FQuAD，一个法语问答数据集。

FQuAD包含了超过25,000个问题和答案对。在FQuAD上使用CamemBERT进行微调，可以获得88%的F1分数和77.9%的精确匹配度。该数据集旨在提供与法语语言中的SQuAD相当的任务。问题是原创的，基于高质量的维基百科文章。

请注意，本数据集仅用于非商业目的，用户必须同意以下条款和条件：

仅将FQuAD用于内部研究目的。

不要复制任何内容，只需备份一份。

不要以任何方式重新分发（或部分重新分发），即使是免费的。

不要出售或将其用于任何商业目的。请联系我们获取可能的商业许可。

在使用FQuAD进行实验的所有出版物中提及语料库的来源和Illuin Technology。

将改进或丰富的版本重新分发给Illuin Technology。

请手动请求从以下地址下载数据： https://fquad.illuin.tech/

支持的任务和排行榜

closed-domain-qa , text-retrieval ：此数据集旨在用于 closed-domain-qa ，但也可用于信息检索任务。

语言

此数据集仅限法语，其中上下文数据来自维基百科，问题来自法国大学生（fr）。

数据集结构

数据实例

默认

下载的数据集文件大小： 3.29 MB
生成的数据集大小： 6.94 MB
使用的总磁盘空间： 10.23 MB

'validation'的一个示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answers_starts": [161, 46, 204],
        "texts": ["La Vierge aux rochers", "documents contemporains", "objets de spéculations"]
    },
    "context": "\"Les deux tableaux sont certes décrits par des documents contemporains à leur création mais ceux-ci ne le font qu'indirectement ...",
    "questions": ["Que concerne principalement les documents ?", "Par quoi sont décrit les deux tableaux ?", "Quels types d'objets sont les deux tableaux aux yeux des chercheurs ?"]
}

数据字段

所有拆分的数据字段相同。

默认

context ：一个字符串feature。
questions ：一个字符串feature的列表。
answers ：一个包含以下内容的字典feature：
- texts ：一个字符串feature。
- answers_starts ：一个int32的feature。

数据拆分

FQuAD数据集有3个拆分： train ， validation ，和 test 。但是目前尚未公开发布 test 拆分。这些拆分包含不重叠的文章集合。下表包含每个拆分的统计信息。

Dataset Split	Number of Articles in Split	Number of paragraphs in split	Number of questions in split
Train	117	4921	20731
Validation	768	51.0%	3188
Test	10	532	2189

数据集创建

策划理由

FQuAD数据集由Illuin Technology创建。它旨在提供与法语语言中SQuAD相当的任务。问题是原创的，基于高质量的维基百科文章。

源数据

上下文中使用的文本来自经过筛选的法语高质量维基百科列表 articles 。

注释

注释（跨度和问题）由法国CentraleSupélec工程学院的学生编写。维基百科文章经过抓取，并且Illuin使用了一种内部开发的工具来帮助注释者提出问题并指示答案跨度。注释者被提供了段落大小的上下文，并被要求根据上下文中的信息产生4/5个非平凡的问题。

个人和敏感信息

此数据集中不包含个人或敏感信息。数据集策划者已经进行了手动验证。

使用数据的注意事项

用户应该考虑到这个数据集是从维基百科数据中取样的，可能不代表所有问答使用案例。

数据集的社会影响

尚未调查此数据集的社会偏见。

偏见讨论

尚未调查此数据集的社会偏见，尽管文章是根据其质量和客观性进行选择的。

其他已知局限性

尚未调查FQuAD数据集的局限性。

其他信息

数据集策划者

Illuin Technology： https://fquad.illuin.tech/

许可信息

FQuAD数据集根据 CC BY-NC-SA 3.0 许可。

它允许个人和学术研究使用该数据集，但不允许商业使用。因此，对于这种商业用途，我们邀请FQuAD用户联系 the authors 讨论可能的合作伙伴关系。

引用信息

@ARTICLE{2020arXiv200206071
       author = {Martin, d'Hoffschmidt and Maxime, Vidal and
         Wacim, Belblidia and Tom, Brendlé},
        title = "{FQuAD: French Question Answering Dataset}",
      journal = {arXiv e-prints},
     keywords = {Computer Science - Computation and Language},
         year = "2020",
        month = "Feb",
          eid = {arXiv:2002.06071},
        pages = {arXiv:2002.06071},
archivePrefix = {arXiv},
       eprint = {2002.06071},
 primaryClass = {cs.CL}
}

贡献

感谢 @thomwolf ， @mariamabarham ， @patrickvonplaten ， @lewtun ， @albertvillanova 添加了该数据集。感谢 @ManuelFay 提供了关于数据集创建过程的信息。

作者:

佚名

数据集大小:

14.9 KB