数据集:

fquad

语言:

fr

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2002.06071
英文

FQuAD数据集卡片

数据集概述

FQuAD: 法语问答数据集我们介绍了FQuAD,一个法语问答数据集。

FQuAD包含了超过25,000个问题和答案对。在FQuAD上使用CamemBERT进行微调,可以获得88%的F1分数和77.9%的精确匹配度。该数据集旨在提供与法语语言中的SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。

请注意,本数据集仅用于非商业目的,用户必须同意以下条款和条件:

  • 仅将FQuAD用于内部研究目的。
  • 不要复制任何内容,只需备份一份。
  • 不要以任何方式重新分发(或部分重新分发),即使是免费的。
  • 不要出售或将其用于任何商业目的。请联系我们获取可能的商业许可。
  • 在使用FQuAD进行实验的所有出版物中提及语料库的来源和Illuin Technology。
  • 将改进或丰富的版本重新分发给Illuin Technology。
  • 请手动请求从以下地址下载数据: https://fquad.illuin.tech/

    支持的任务和排行榜

    • closed-domain-qa , text-retrieval :此数据集旨在用于 closed-domain-qa ,但也可用于信息检索任务。

    语言

    此数据集仅限法语,其中上下文数据来自维基百科,问题来自法国大学生(fr)。

    数据集结构

    数据实例

    默认
    • 下载的数据集文件大小: 3.29 MB
    • 生成的数据集大小: 6.94 MB
    • 使用的总磁盘空间: 10.23 MB

    'validation'的一个示例如下所示。

    This example was too long and was cropped:
    
    {
        "answers": {
            "answers_starts": [161, 46, 204],
            "texts": ["La Vierge aux rochers", "documents contemporains", "objets de spéculations"]
        },
        "context": "\"Les deux tableaux sont certes décrits par des documents contemporains à leur création mais ceux-ci ne le font qu'indirectement ...",
        "questions": ["Que concerne principalement les documents ?", "Par quoi sont décrit les deux tableaux ?", "Quels types d'objets sont les deux tableaux aux yeux des chercheurs ?"]
    }
    

    数据字段

    所有拆分的数据字段相同。

    默认
    • context :一个字符串feature。
    • questions :一个字符串feature的列表。
    • answers :一个包含以下内容的字典feature:
      • texts :一个字符串feature。
      • answers_starts :一个int32的feature。

    数据拆分

    FQuAD数据集有3个拆分: train , validation ,和 test 。但是目前尚未公开发布 test 拆分。这些拆分包含不重叠的文章集合。下表包含每个拆分的统计信息。

    Dataset Split Number of Articles in Split Number of paragraphs in split Number of questions in split
    Train 117 4921 20731
    Validation 768 51.0% 3188
    Test 10 532 2189

    数据集创建

    策划理由

    FQuAD数据集由Illuin Technology创建。它旨在提供与法语语言中SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。

    源数据

    上下文中使用的文本来自经过筛选的法语高质量维基百科列表 articles

    注释

    注释(跨度和问题)由法国CentraleSupélec工程学院的学生编写。维基百科文章经过抓取,并且Illuin使用了一种内部开发的工具来帮助注释者提出问题并指示答案跨度。注释者被提供了段落大小的上下文,并被要求根据上下文中的信息产生4/5个非平凡的问题。

    个人和敏感信息

    此数据集中不包含个人或敏感信息。数据集策划者已经进行了手动验证。

    使用数据的注意事项

    用户应该考虑到这个数据集是从维基百科数据中取样的,可能不代表所有问答使用案例。

    数据集的社会影响

    尚未调查此数据集的社会偏见。

    偏见讨论

    尚未调查此数据集的社会偏见,尽管文章是根据其质量和客观性进行选择的。

    其他已知局限性

    尚未调查FQuAD数据集的局限性。

    其他信息

    数据集策划者

    Illuin Technology: https://fquad.illuin.tech/

    许可信息

    FQuAD数据集根据 CC BY-NC-SA 3.0 许可。

    它允许个人和学术研究使用该数据集,但不允许商业使用。因此,对于这种商业用途,我们邀请FQuAD用户联系 the authors 讨论可能的合作伙伴关系。

    引用信息

    @ARTICLE{2020arXiv200206071
           author = {Martin, d'Hoffschmidt and Maxime, Vidal and
             Wacim, Belblidia and Tom, Brendlé},
            title = "{FQuAD: French Question Answering Dataset}",
          journal = {arXiv e-prints},
         keywords = {Computer Science - Computation and Language},
             year = "2020",
            month = "Feb",
              eid = {arXiv:2002.06071},
            pages = {arXiv:2002.06071},
    archivePrefix = {arXiv},
           eprint = {2002.06071},
     primaryClass = {cs.CL}
    }
    

    贡献

    感谢 @thomwolf @mariamabarham @patrickvonplaten @lewtun @albertvillanova 添加了该数据集。感谢 @ManuelFay 提供了关于数据集创建过程的信息。