数据集:

GEM/OrangeSum

语言:

fr

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

unknown

源数据集:

original

许可:

other
英文

GEM / OrangeSum 数据集卡片

主数据卡片链接

主数据卡片链接: GEM Website

数据集概述

OrangeSum 是一个受 XSum 启发的法语摘要数据集。它包含两个子任务:摘要生成和标题生成。数据来自 "Orange Actu" 在2011年至2020年期间的文章。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/OrangeSum')

数据加载器可在此找到: here

paper

ACL Anthology

数据集概览

数据及其文档的获取方式

下载

Github

论文

ACL Anthology

BibTex
@inproceedings{kamal-eddine-etal-2021-barthez,
    title = "{BART}hez: a Skilled Pretrained {F}rench Sequence-to-Sequence Model",
    author = "Kamal Eddine, Moussa  and
      Tixier, Antoine  and
      Vazirgiannis, Michalis",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.740",
    doi = "10.18653/v1/2021.emnlp-main.740",
    pages = "9369--9390",
    abstract = "Inductive transfer learning has taken the entire NLP field by storm, with models such as BERT and BART setting new state of the art on countless NLU tasks. However, most of the available models and research have been conducted for English. In this work, we introduce BARThez, the first large-scale pretrained seq2seq model for French. Being based on BART, BARThez is particularly well-suited for generative tasks. We evaluate BARThez on five discriminative tasks from the FLUE benchmark and two generative tasks from a novel summarization dataset, OrangeSum, that we created for this research. We show BARThez to be very competitive with state-of-the-art BERT-based French language models such as CamemBERT and FlauBERT. We also continue the pretraining of a multilingual BART on BARThez{'} corpus, and show our resulting model, mBARThez, to significantly boost BARThez{'} generative performance.",
}
有排行榜吗?

语言和使用目的

多语言?

覆盖的语言

法语

授权许可

其他:其他许可证

主要任务

摘要生成

鸣谢

数据集结构

GEM 中的数据集

纳入 GEM 的原因

类似的数据集

GEM 特定的策划

为 GEM 修改过?

其他细分?

开始任务

资源指南

使用序列到序列模型进行生成式摘要的论文:

(预训练)转换器的论文:

技术术语

数据卡片中没有独特的技术术语。

以前的结果

以前的结果

评估模型的能力

该模型生成给定新闻文章的类人标题和摘要的能力。

度量标准

ROUGE ,BERT-Score

提出的评估方法

自动评估:使用 Rouge-1、Rouge-2、RougeL 和 BERTScore 进行评估。

人工评估:与 11 位法语母语人士进行了一项评估研究。评估人员是作者所在大学的计算机科学系的博士生,从事自然语言处理和其他人工智能领域的工作。他们在收到邮件通知后自愿参加。使用了最佳-最差比例 (Louviere 等人,2015)。将来自两个不同系统的摘要及其输入文档呈现给人工注释员,其任务是决定哪个摘要更好。评估人员被要求根据准确性(摘要是否包含准确的事实?)、信息量(是否捕捉到重要信息?)和流畅度(摘要是否以良好的法语写成?)做出判断。

以前的结果可用吗?

更广泛的社会背景

对数据集社会影响的以前研究

基于数据的模型的使用情况

对弱势群体的影响

是否满足弱势群体需求?

偏见讨论

有任何已记录的社会偏见吗?

语言制作者是否代表该语言?

数据集包含由专业作者撰写的新闻文章。

使用数据时的注意事项

PII 风险和责任

许可证

数据集的版权限制

开放许可 - 允许商业使用

语言数据的版权限制

开放许可 - 允许商业使用

已知的技术限制