英文

模型卡片:brio-xsum-cased

模型详情

模型描述

BRIO:给抽象摘要带来秩序

  • 开发者:Yale LILY Lab
  • 共享者[可选]:Hugging Face
  • 模型类型:PEGASUS
  • 语言(自然语言处理):文本到文本生成
  • 许可证:需要更多信息
  • 相关模型:
    • 父模型:PEGASUS
  • 更多信息的资源:

用途

直接使用

该模型可用于文本到文本生成的任务

下游使用[可选]

模型创建者在 associated paper 中指出

可以在强化学习环境中应用我们的方法,其中候选摘要是动态生成的。

不建议使用的范围

模型不应被用于故意为人们创造敌对或疏远的环境。

偏差、风险和限制

大量研究已经探讨了语言模型的偏差和公平性问题(例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含跨受保护类别的令人不安和有害的刻板印象;身份特征;以及敏感的、社会的和职业的群体。

建议

用户(包括直接用户和下游用户)应该意识到模型的风险、偏差和限制。需要更多信息以获得进一步的建议。

训练详情

训练数据

模型创建者在 associated paper 中指出

CNNDM4:是一个大规模的新闻数据集,Nallapati等人:我们将新闻文章作为源文件,其中的要点作为摘要。XSum5:是一个来自英国广播公司(BBC)的高度抽象的文章数据集。NYT6:包含来自《纽约时报》的文章和相关摘要。

训练过程

预处理

模型创建者在 associated paper 中指出

我们遵循Kedzie等人(2018)的数据预处理和分割方法,并使用相关的存档摘要作为摘要。

速度、大小、时间

需要更多信息

评估

测试数据、因素和度量标准

测试数据

需要更多信息

因素

需要更多信息

度量标准

需要更多信息

结果

CNNDM

ROUGE-1 ROUGE-2 ROUGE-L
BART 44.16 21.28 40.90
Ours 47.78 23.55 44.57

XSum

ROUGE-1 ROUGE-2 ROUGE-L
Pegasus 47.21 24.56 39.25
Ours 49.07 25.59 40.40

NYT

ROUGE-1 ROUGE-2 ROUGE-L
BART 55.78 36.61 52.60
Ours 57.75 38.64 54.54

模型考察

模型创建者在 associated paper 中指出我们认为BRIO-Ctr的出色性能归功于它在候选生成和评分两个阶段使用了相同的模型架构(BART),而SimCLS则使用RoBERTa作为评估模型。因此,BRIO-Ctr最大程度地共享了这两个阶段之间的参数,并保留了在相同数据集上预训练的Seq2Seq模型的功能。

环境影响

可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中介绍的方法来估计碳排放量。

  • 硬件类型:需要更多信息
  • 使用小时数:需要更多信息
  • 云提供商:需要更多信息
  • 计算区域:需要更多信息
  • 排放碳量:需要更多信息

技术规格[可选]

模型架构和目标

模型创建者在 associated paper 中指出

将摘要形式化为序列到序列(Seq2Seq)问题

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX:

@misc{https://doi.org/10.48550/arxiv.2203.16804,
 doi = {10.48550/ARXIV.2203.16804},
 
 url = {https://arxiv.org/abs/2203.16804},
 
 author = {Liu, Yixin and Liu, Pengfei and Radev, Dragomir and Neubig, Graham},
 
 keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
 
 title = {BRIO: Bringing Order to Abstractive Summarization},

术语表[可选]

需要更多信息

更多信息[可选]

需要更多信息

模型卡片作者[可选]

耶鲁大学LILY实验室与Ezi Ozoani和Hugging Face团队合作

模型卡联系方式

需要更多信息

如何开始使用该模型

使用以下代码开始使用该模型。

点击展开
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 
tokenizer = AutoTokenizer.from_pretrained("Yale-LILY/brio-xsum-cased")
 
model = AutoModelForSeq2SeqLM.from_pretrained("Yale-LILY/brio-xsum-cased")