英文

LexLM 大型模型

该模型是从 RoBERTa 大型模型( https://huggingface.co/roberta-large )在 LeXFiles 语料库( https://huggingface.co/datasets/lexlms/lexfiles )上进行进一步预训练得到的。

模型描述

LexLM(Base/Large)是我们最新发布的 RoBERTa 模型。在语言模型的开发上,我们遵循了一系列最佳实践:

  • 我们从刘等人(2019)的原始 RoBERTa 模型检查点(base 或 large)中热启动(初始化)我们的模型。
  • 我们训练了一个包含 50,000 个 BPE(Byte Pair Encoding)的新分词器,但对于所有重叠的词汇,我们复用了原始的嵌入向量(Pfeiffer 等人,2021)。
  • 我们在多样化的 LeXFiles 语料库上额外进行了 1,000,000 步的继续预训练,使用的批次大小为 512 个样本,遮盖率分别为 20%(base 模型)和 30%(large 模型)(Wettig 等人,2022)。
  • 我们使用了一个句子采样器,采用了 Conneau 等人(2019)的指数平滑子语料库采样率,因为各个子语料库中的令牌数量存在差异,我们的目标是保留每个子语料库的容量(避免过拟合)。
  • 我们考虑了大小写混合模型,类似于所有最近开发的大型 PLM(Pretrained Language Models)。

拟合用途和限制

需要更多信息。

训练和评估数据

该模型是在 LeXFiles 语料库( https://huggingface.co/datasets/lexlms/lexfiles )上进行训练的。有关评估结果,请参考我们的研究论文《LeXFiles and LegalLAMA:促进英文跨国法律语言模型开发》(Chalkidis*等人,2023)。

训练过程

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:0.0001
  • 训练批次大小:8
  • 评估批次大小:8
  • 种子:42
  • 分布式类型:tpu
  • 设备数量:8
  • 梯度累积步数:4
  • 总训练批次大小:256
  • 总评估批次大小:64
  • 优化器:Adam,beta 值为 (0.9, 0.999),epsilon 值为 1e-08
  • 学习率调度程序类型:cosine
  • 学习率调度程序预热比例:0.05
  • 训练步数:1000000

训练结果

Training Loss Epoch Step Validation Loss
1.1322 0.05 50000 0.8690
1.0137 0.1 100000 0.8053
1.0225 0.15 150000 0.7951
0.9912 0.2 200000 0.7786
0.976 0.25 250000 0.7648
0.9594 0.3 300000 0.7550
0.9525 0.35 350000 0.7482
0.9152 0.4 400000 0.7343
0.8944 0.45 450000 0.7245
0.893 0.5 500000 0.7216
0.8997 1.02 550000 0.6843
0.8517 1.07 600000 0.6687
0.8544 1.12 650000 0.6624
0.8535 1.17 700000 0.6565
0.8064 1.22 750000 0.6523
0.7953 1.27 800000 0.6462
0.8051 1.32 850000 0.6386
0.8148 1.37 900000 0.6383
0.8004 1.42 950000 0.6408
0.8031 1.47 1000000 0.6314

框架版本

  • Transformers 4.20.0
  • Pytorch 1.12.0+cu102
  • Datasets 2.7.0
  • Tokenizers 0.12.0

引用

Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. 2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.

@inproceedings{chalkidis-garneau-etal-2023-lexlms,
    title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
    author = "Chalkidis*, Ilias and 
              Garneau*, Nicolas and
              Goanta, Catalina and 
              Katz, Daniel Martin and 
              Søgaard, Anders",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
    month = july,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2305.07507",
}