英文

FLUE 数据集卡片

数据集摘要

FLUE 是一个用于法语自然语言处理系统的评估框架,类似于流行的GLUE基准测试。其目标是为将来的实验提供更多的可重现性,并分享在法语语言上的模型和进展。任务和数据来自现有的作品,请参考我们的Flaubert论文获取完整的参考文献列表。

支持的任务和排行榜

支持的任务包括:文本分类、释义、自然语言推理、短语结构句法分析、依存句法分析、动词语义消歧和名词语义消歧。

语言

所有数据集都是法语。

数据集结构

文本分类 (CLS)

这是一个二元分类任务。其目标是对亚马逊评论进行分类为三个产品类别:书籍、DVD和音乐。每个样本包含评论文本和与之关联的1到5星的评分。评分大于3的被标记为正面,评分小于3的被标记为负面。

数据实例

实例的格式如下:

{
    'idx': 1,
    'label': 0,
    'text': 'Bilan plus que mitigé pour cet album fourre-tout qui mêle quelques bonnes idées (les parodies d\'oeuvres d\'art) et des scènetes qui ne font que faire écho paresseusement aux précédents albums. Uderzo n\'a pas pris de risque pour cet album, mais, au vu des précédents, on se dit que c\'est peut-être un moindre mal ... L\'album semble n\'avoir été fait que pour permettre à Uderzo de rappeler avec une insistance suspecte qu\'il est bien l\'un des créateurs d\'Astérix (comme lorsqu\'il se met en scène lui même dans la BD) et de traiter ses critiques d\' "imbéciles" dans une préface un rien aigrie signée "Astérix". Préface dans laquelle Uderzo feint de croire que ce qu\'on lui reproche est d\'avoir fait survivre Asterix à la disparition de Goscinny (reproche naturellement démenti par la fidélité des lecteurs - démonstration imparable !). On aurait tant aimé qu\'Uderzo accepte de s\'entourer d\'un scénariste compétent et respectueux de l\'esprit Goscinnien (cela doit se trouver !) et nous propose des albums plus ambitieux ...'
}
数据字段

数据集由两个字段组成:

  • text:表示要分类的文本字段。
  • label:文本所代表的情感,这里是正面或负面。
数据拆分

训练集和测试集都是平衡的,每个数据集包含大约1k个正面评论和1k个负面评论,共2k个评论。我们选择法语部分创建FLUE的二元文本分类任务,并在测试集上报告准确率。

释义 (PAWS-X)

该任务的目标是确定一对句子是否在语义上等效。

数据实例

实例的格式如下:

{
    'idx': 1,
    'label': 0,
    'sentence1': "À Paris, en octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par l'Écosse.",
    'sentence2': "En octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par l'Angleterre."
}
数据字段

数据集由三个字段组成:

  • sentence1:示例的第一个句子
  • sentence2:示例的第二个句子
  • label:如果两个句子不是释义关系,则为0;否则为1。
数据拆分

训练集包含49.4k个示例,开发集和测试集各包含近2k个示例。我们选择法语相关数据集进行释义任务,并在测试集上报告准确率。

自然语言推理 (XNLI)

自然语言推理(NLI)任务,也被称为文本蕴涵识别(RTE),是确定一个前提是否蕴涵、矛盾或既不蕴涵也不矛盾于一个假设的任务。我们选择XNLI语料库中的法语部分来构建FLUE中自然语言推理任务的开发集和测试集。

数据实例

实例的格式如下:

{
    'idx': 1,
    'label': 2,
    'hypo': 'Le produit et la géographie sont ce qui fait travailler la crème de la crème .',
    'premise': "L' écrémage conceptuel de la crème a deux dimensions fondamentales : le produit et la géographie ."
}
数据字段

数据集由三个字段组成:

  • premise:前提句子。
  • hypo:假设句子。
  • label:如果两个句子矛盾,则为"contradiction";如果两个句子蕴涵,则为"entailment";如果两个句子既不蕴涵也不矛盾,则为"neutral"。
数据拆分

训练集包含392.7k个示例,开发集和测试集分别包含2.5k个和5k个示例。我们选择法语相关数据集执行NLI任务,并在测试集上报告准确率。

动词词义消歧 (WSD-V)

FrenchSemEval(FSE)数据集旨在评估法语动词的词义消歧任务,数据来自维基词典。

数据实例

实例的格式如下:

{
    'idx': 'd000.s001',
    'sentence': ['"', 'Ce', 'ne', 'fut', 'pas', 'une', 'révolution', '2.0', ',', 'ce', 'fut', 'une', 'révolution', 'de', 'rue', '.'],
    'fine_pos_tags': [27, 26, 18, 13, 18, 0, 6, 22, 27, 26, 13, 0, 6, 4, 6, 27],
    'lemmas': ['"', 'ce', 'ne', 'être', 'pas', 'un', 'révolution', '2.0', ',', 'ce', 'être', 'un', 'révolution', 'de', 'rue', '.'],
    'pos_tags': [13, 11, 14, 0, 14, 9, 15, 4, 13, 11, 0, 9, 15, 7, 15, 13],
    'disambiguate_labels': ['__ws_1_2.0__adj__1'],
    'disambiguate_tokens_ids': [7],
}
数据字段

数据集由六个字段组成:

  • sentence:要处理的句子拆分成标记。
  • pos_tags:每个标记对应的词性标签。
  • lemmas:每个标记对应的词元。
  • fine_pos_tags:每个标记的详细(更具体)词性标签。
  • disambiguate_tokens_ids:句子中要消歧的标记的ID。
  • disambiguate_labels:标签的形式为"sentenceID __ws_sentence-number_token__pos__number-of-time-the-token-appeared-across-all-the-sentences"(例如"d000.s404.t000 __ws_2_agir__verb__1")。
数据拆分

训练集包含269821个示例,测试集包含3121个示例。

使用数据时的注意事项

数据集的社会影响

目标是为将来的实验提供更多的可重现性,并分享在法语语言上的模型和进展。

其他信息

许可信息

许可证信息如下:

  • 对于CLS任务,特别是新闻来源文本的许可状态未知。
  • PAWS-X数据集可以自由使用,尽管希望承认Google LLC("Google")作为数据源。该数据集以"按原样提供"的形式提供,没有任何明示或暗示的保证。Google对使用数据集造成的任何直接或间接损害不承担任何责任。
  • XNLI数据集的许可证为CC BY-NC 4.0。
  • 动词词义消歧数据集,特别是新闻来源文本的许可状态未知。

引用信息

@misc{le2019flaubert,
    title={FlauBERT: Unsupervised Language Model Pre-training for French},
    author={Hang Le and Loïc Vial and Jibril Frej and Vincent Segonne and Maximin Coavoux and Benjamin Lecouteux and Alexandre Allauzen and Benoît Crabbé and Laurent Besacier and Didier Schwab},
    year={2019},
    eprint={1912.05372},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献者

感谢 @jplu 添加了此数据集。