数据集:
flue
任务:
文本分类语言:
fr计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1912.05372许可:
license:unknownFLUE 是一个用于法语自然语言处理系统的评估框架,类似于流行的GLUE基准测试。其目标是为将来的实验提供更多的可重现性,并分享在法语语言上的模型和进展。任务和数据来自现有的作品,请参考我们的Flaubert论文获取完整的参考文献列表。
支持的任务包括:文本分类、释义、自然语言推理、短语结构句法分析、依存句法分析、动词语义消歧和名词语义消歧。
所有数据集都是法语。
这是一个二元分类任务。其目标是对亚马逊评论进行分类为三个产品类别:书籍、DVD和音乐。每个样本包含评论文本和与之关联的1到5星的评分。评分大于3的被标记为正面,评分小于3的被标记为负面。
数据实例实例的格式如下:
{ 'idx': 1, 'label': 0, 'text': 'Bilan plus que mitigé pour cet album fourre-tout qui mêle quelques bonnes idées (les parodies d\'oeuvres d\'art) et des scènetes qui ne font que faire écho paresseusement aux précédents albums. Uderzo n\'a pas pris de risque pour cet album, mais, au vu des précédents, on se dit que c\'est peut-être un moindre mal ... L\'album semble n\'avoir été fait que pour permettre à Uderzo de rappeler avec une insistance suspecte qu\'il est bien l\'un des créateurs d\'Astérix (comme lorsqu\'il se met en scène lui même dans la BD) et de traiter ses critiques d\' "imbéciles" dans une préface un rien aigrie signée "Astérix". Préface dans laquelle Uderzo feint de croire que ce qu\'on lui reproche est d\'avoir fait survivre Asterix à la disparition de Goscinny (reproche naturellement démenti par la fidélité des lecteurs - démonstration imparable !). On aurait tant aimé qu\'Uderzo accepte de s\'entourer d\'un scénariste compétent et respectueux de l\'esprit Goscinnien (cela doit se trouver !) et nous propose des albums plus ambitieux ...' }数据字段
数据集由两个字段组成:
训练集和测试集都是平衡的,每个数据集包含大约1k个正面评论和1k个负面评论,共2k个评论。我们选择法语部分创建FLUE的二元文本分类任务,并在测试集上报告准确率。
该任务的目标是确定一对句子是否在语义上等效。
数据实例实例的格式如下:
{ 'idx': 1, 'label': 0, 'sentence1': "À Paris, en octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par l'Écosse.", 'sentence2': "En octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par l'Angleterre." }数据字段
数据集由三个字段组成:
训练集包含49.4k个示例,开发集和测试集各包含近2k个示例。我们选择法语相关数据集进行释义任务,并在测试集上报告准确率。
自然语言推理(NLI)任务,也被称为文本蕴涵识别(RTE),是确定一个前提是否蕴涵、矛盾或既不蕴涵也不矛盾于一个假设的任务。我们选择XNLI语料库中的法语部分来构建FLUE中自然语言推理任务的开发集和测试集。
数据实例实例的格式如下:
{ 'idx': 1, 'label': 2, 'hypo': 'Le produit et la géographie sont ce qui fait travailler la crème de la crème .', 'premise': "L' écrémage conceptuel de la crème a deux dimensions fondamentales : le produit et la géographie ." }数据字段
数据集由三个字段组成:
训练集包含392.7k个示例,开发集和测试集分别包含2.5k个和5k个示例。我们选择法语相关数据集执行NLI任务,并在测试集上报告准确率。
FrenchSemEval(FSE)数据集旨在评估法语动词的词义消歧任务,数据来自维基词典。
数据实例实例的格式如下:
{ 'idx': 'd000.s001', 'sentence': ['"', 'Ce', 'ne', 'fut', 'pas', 'une', 'révolution', '2.0', ',', 'ce', 'fut', 'une', 'révolution', 'de', 'rue', '.'], 'fine_pos_tags': [27, 26, 18, 13, 18, 0, 6, 22, 27, 26, 13, 0, 6, 4, 6, 27], 'lemmas': ['"', 'ce', 'ne', 'être', 'pas', 'un', 'révolution', '2.0', ',', 'ce', 'être', 'un', 'révolution', 'de', 'rue', '.'], 'pos_tags': [13, 11, 14, 0, 14, 9, 15, 4, 13, 11, 0, 9, 15, 7, 15, 13], 'disambiguate_labels': ['__ws_1_2.0__adj__1'], 'disambiguate_tokens_ids': [7], }数据字段
数据集由六个字段组成:
训练集包含269821个示例,测试集包含3121个示例。
目标是为将来的实验提供更多的可重现性,并分享在法语语言上的模型和进展。
许可证信息如下:
@misc{le2019flaubert, title={FlauBERT: Unsupervised Language Model Pre-training for French}, author={Hang Le and Loïc Vial and Jibril Frej and Vincent Segonne and Maximin Coavoux and Benjamin Lecouteux and Alexandre Allauzen and Benoît Crabbé and Laurent Besacier and Didier Schwab}, year={2019}, eprint={1912.05372}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @jplu 添加了此数据集。