英文

法律Longformer(基础版)

这是基于 LexLM (base) RoBERTa 模型的一个衍生模型。所有模型参数都是从原始模型克隆而来,而位置嵌入则是通过克隆原始嵌入多次来扩展的,遵循 Beltagy et al. (2020) 并使用类似于 https://github.com/allenai/longformer/blob/master/scripts/convert_model_to_long.ipynb 的Python脚本进行操作。

模型描述

LexLM(Base/Large)是我们最新发布的RoBERTa模型。我们遵循了语言模型开发的一系列最佳实践:

  • 我们从Liu等人(2019)的原始RoBERTa检查点(base或large)中热启动(初始化)我们的模型。
  • 我们训练了一个新的50k BPEs的分词器,但对于所有与原始重叠的标记,我们重用了原始嵌入(Pfeiffer等人,2021)。
  • 我们在多样化的LeXFiles语料库上继续预训练模型,步数为100万步,批次大小为512个样本,掩码率为20/30%(Wettig等人,2022),对于基础/大型模型。
  • 我们使用一种句子采样器,采用Conneau等人(2019)的指数平滑子语料库采样率,因为子语料库之间的标记比例不同,我们希望保留每个语料库的容量(避免过拟合)。
  • 我们考虑大小写混合模型,与所有最近开发的大型PLM类似。

引用

Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. 2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.

@inproceedings{chalkidis-garneau-etal-2023-lexlms,
    title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
    author = "Chalkidis*, Ilias and 
              Garneau*, Nicolas and
              Goanta, Catalina and 
              Katz, Daniel Martin and 
              Søgaard, Anders",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
    month = july,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2305.07507",
}