英文

ELMER

ELMER模型是由Junyi Li,Tianyi Tang,Wayne Xin Zhao,Jian-Yun Nie和Ji-Rong Wen于 ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation 年提出的。

详细信息和说明可以在 https://github.com/RUCAIBox/ELMER 找到。

模型描述

ELMER是一种用于非自回归文本生成的高效有效的PLM模型,通过利用提前终止技术在不同层次生成标记

ELMER的架构是标准Transformer编码器-解码器的一个变体,提出了三个技术贡献:

  • 对于解码器,我们将原始的掩码多头注意力替换为类似编码器的双向多头注意力。因此,ELMER通过在任何位置发出结束标记"[EOS]"来动态调整输出长度。
  • 利用提前终止,ELMER在每个解码器层中插入"出口",它们使用中间隐藏状态进行预测。如果ELMER在第$l$个层次上终止,我们将第$l$个隐藏状态复制到后续层次。
  • ELMER利用一种新颖的预训练目标,即层排列语言建模(LPLM),对大规模语料进行预训练。LPLM将每个标记的出口层从1排列到最大层$L$。
  • 示例

    要在非自回归文本生成上对ELMER进行微调:

    >>> from transformers import BartTokenizer as ElmerTokenizer
    >>> from transformers import BartForConditionalGeneration as ElmerForConditionalGeneration
    
    >>> tokenizer = ElmerTokenizer.from_pretrained("RUCAIBox/elmer")
    >>> model = ElmerForConditionalGeneration.from_pretrained("RUCAIBox/elmer")
    

    引用

    @article{lijunyi2022elmer,
      title={ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation},
      author={Li, Junyi and Tang, Tianyi and Zhao, Wayne Xin and Nie, Jian-Yun and Wen, Ji-Rong},
      booktitle={EMNLP 2022},
      year={2022}
    }