英文

法律长格式(大型)

这是基于RoBERTa模型的衍生模型。所有模型参数都是从原始模型复制而来的,而位置嵌入则是通过使用类似于此脚本(链接)的Python脚本进行多次克隆的方式进行扩展的。

模型描述

大型LexLM是我们新发布的RoBERTa模型。我们遵循语言模型开发中的一系列最佳实践:

  • 我们从Liu等人(2019年)的原始RoBERTa检查点(基本或大型)中热启动(初始化)我们的模型。
  • 我们训练了一个包含50k个BPE标记的新分词器,但对于所有重叠的词汇标记,我们重用了原始嵌入(Pfeiffer等人,2021年)。
  • 我们继续在多样化的LeXFiles语料库上进行额外的100万步预训练,使用512个样本的批次和20/30%的掩码率(Wettig等人,2022年),对于基础/大型模型来说。
  • 我们使用句子采样器,采用Conneau等人(2019年)的指数平滑子语料库采样率,因为子语料库中的标记比例不同,我们的目标是保留每个语料库的容量(避免过拟合)。
  • 我们考虑大小写混合模型,与最近开发的所有大型PLM相似。

引用

Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. 2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.

@inproceedings{chalkidis-garneau-etal-2023-lexlms,
    title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
    author = "Chalkidis*, Ilias and 
              Garneau*, Nicolas and
              Goanta, Catalina and 
              Katz, Daniel Martin and 
              Søgaard, Anders",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
    month = july,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2305.07507",
}