英文

bigbird pegasus 在 booksum 数据集上的使用

这是训练时间最长的 "最新" 版本的模型,目前已经进行了70k步的训练

  • 目标:一个能够准确总结源内容的摘要模型,更重要的是产生易于阅读和理解的摘要(不像arXiv那样难读)
    • 这个模型尝试通过使用 booksum 数据集来提供解释性摘要来帮助实现这个目标
    • 解释性摘要 - 既总结信息,也解释为什么该总结的信息很重要
  • 这个模型总共训练了七个时期(约70,000步),现在接近完成
    • 根据任何结果和反馈意见,将继续改进(现在训练时间很长,所以进展会慢一些)
  • 起始检查点为 google/bigbird-pegasus-large-bigpatent

使用示例

包括批量摘要演示的扩展示例在 here

  • 创建摘要器对象:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import pipeline

model = AutoModelForSeq2SeqLM.from_pretrained(
    "pszemraj/bigbird-pegasus-large-K-booksum",
    low_cpu_mem_usage=True,
)

tokenizer = AutoTokenizer.from_pretrained(
    "pszemraj/bigbird-pegasus-large-K-booksum",
)


summarizer = pipeline(
    "summarization",
    model=model,
    tokenizer=tokenizer,
)          
  • 定义要进行摘要的文本,并将其通过管道传递。完成!
wall_of_text = "your text to be summarized goes here."

result = summarizer(
    wall_of_text,
    min_length=16,
    max_length=256,
    no_repeat_ngram_size=3,
    clean_up_tokenization_spaces=True,
)

print(result[0]["summary_text"])

备用检查点

  • 如果遇到运行时/内存问题,请尝试在40,000步附近使用 this earlier checkpoint ,它在解释性摘要任务上几乎与原始模型一样好,但速度更快。
  • 查看在 booksum 上使用不同架构微调的类似摘要模型: long-t5 base LED-Large