英文

LEGAL-ROBERTA

我们介绍LEGAL-ROBERTA,这是一个在大规模法律语料库(4.6 GB)上进行微调的领域特定语言表示模型。

演示

''这份<mask>协议是由通用汽车和约翰·默里签署的。'

Model top1 top2 top3 top4 top5
Bert new current proposed marketing joint
legalBert settlement letter dealer master supplemental
legalRoberta License Settlement Contract license Trust

LegalRoberta捕捉到了这个案例

''申请人提交称,她的丈夫在安达纳警察总局羁押期间受到了<mask>的待遇。'

Model top1 top2 top3 top4 top5
Bert torture rape abuse death violence
legalBert torture detention arrest rape death
legalRoberta torture abuse insanity cruelty confinement

''建立一个关于<mask>动物的识别和注册系统,以及关于牛肉和牛肉产品标签的条例。'':

Model top1 top2 top3 top4 top5
Bert farm livestock draft domestic wild
legalBert live beef farm pet dairy
legalRoberta domestic all beef wild registered

加载预训练模型

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("saibo/legal-roberta-base")
model = AutoModel.from_pretrained("saibo/legal-roberta-base")

训练数据

训练数据由3个来源组成:

  • 专利诉讼( https://www.kaggle.com/uspto/patent-litigations ):该数据集涵盖了52年间超过7.4万个案例和超过500万个相关文件。文件包括诉讼双方、律师、结果、地点和日期的详细信息。

  • 1.57GB
  • abbrev:PL
  • clean 1.1GB
  • 案例法访问项目(CAP)( https://case.law/ ):继美国360年的案例法后,案例法访问项目(CAP)API和批量数据服务包括4000万页的美国法院裁决和近650万个个案。

  • raw 5.6
  • abbrev:CAP
  • clean 2.8GB
  • Google专利公共数据( https://www.kaggle.com/bigquery/patents ):Google专利公共数据包含了一个公开可访问的、连接的数据库表的集合,用于对国际专利系统进行实证分析。

  • BigQuery( https://www.kaggle.com/sohier/beyond-queries-exploring-the-bigquery-api
  • abbrev:GPPD(1.1GB,patents-public-data.uspto_oce_litigation.documents)
  • clean 1GB
  • 训练过程

    我们从预训练的ROBERTA-BASE模型开始,然后在法律语料库上进行微调。

    微调配置:

    • lr = 5e-5(使用lr decay,最后为4.95e-8)
    • num_epoch = 3
    • Total steps = 446500
    • Total_flos = 2.7365e18

    损失从1.850开始,最后为0.880,在法律语料库上微调后的困惑度为2.2735

    设备:2*GeForce GTX TITAN X computeCapability: 5.2

    评估结果

    我们在两个下游任务上对模型进行了基准测试:法律文本的多标签分类和带有法律案例描述的关键词检索。

    1. LMTC,法律文本的多标签分类

    数据集:

    标签形状:4271常见标签:739少数标签:3369无标签:163

    超参数:

    • lr:1e-05
    • batch_size:4
    • max_sequence_size:512
    • max_label_size:15
    • few_threshold:50
    • epochs:10
    • dropout:0.1
    • early stop:yes
    • patience:3

    限制:

    在遮蔽语言模型展厅中,标记具有前缀Ġ。这看起来很奇怪,但我还没有找到解决方法。我知道在BPE分词器(ROBERTA的分词器)的情况下,符号Ġ表示新标记的结束,预训练分词器的大部分标记以Ġ开头。

    例如:

    import transformers
    tokenizer = transformers.RobertaTokenizer.from_pretrained('roberta-base')
    print(tokenizer.tokenize('I love salad'))
    

    输出:

    ['I', 'Ġlove', 'Ġsalad']
    

    LegalRoBERTa的预训练受限于可用法律语料库的大小,预训练步骤数量相对于流行的领域自适应模型来说很少。这使得LegalRoBERTa的训练程度显著不足。

    BibTeX条目和引文信息