模型:
saibo/legal-roberta-base
我们介绍LEGAL-ROBERTA,这是一个在大规模法律语料库(4.6 GB)上进行微调的领域特定语言表示模型。
''这份<mask>协议是由通用汽车和约翰·默里签署的。'
Model | top1 | top2 | top3 | top4 | top5 |
---|---|---|---|---|---|
Bert | new | current | proposed | marketing | joint |
legalBert | settlement | letter | dealer | master | supplemental |
legalRoberta | License | Settlement | Contract | license | Trust |
LegalRoberta捕捉到了这个案例
''申请人提交称,她的丈夫在安达纳警察总局羁押期间受到了<mask>的待遇。'
Model | top1 | top2 | top3 | top4 | top5 |
---|---|---|---|---|---|
Bert | torture | rape | abuse | death | violence |
legalBert | torture | detention | arrest | rape | death |
legalRoberta | torture | abuse | insanity | cruelty | confinement |
''建立一个关于<mask>动物的识别和注册系统,以及关于牛肉和牛肉产品标签的条例。'':
Model | top1 | top2 | top3 | top4 | top5 |
---|---|---|---|---|---|
Bert | farm | livestock | draft | domestic | wild |
legalBert | live | beef | farm | pet | dairy |
legalRoberta | domestic | all | beef | wild | registered |
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("saibo/legal-roberta-base") model = AutoModel.from_pretrained("saibo/legal-roberta-base")
训练数据由3个来源组成:
专利诉讼( https://www.kaggle.com/uspto/patent-litigations ):该数据集涵盖了52年间超过7.4万个案例和超过500万个相关文件。文件包括诉讼双方、律师、结果、地点和日期的详细信息。
案例法访问项目(CAP)( https://case.law/ ):继美国360年的案例法后,案例法访问项目(CAP)API和批量数据服务包括4000万页的美国法院裁决和近650万个个案。
Google专利公共数据( https://www.kaggle.com/bigquery/patents ):Google专利公共数据包含了一个公开可访问的、连接的数据库表的集合,用于对国际专利系统进行实证分析。
我们从预训练的ROBERTA-BASE模型开始,然后在法律语料库上进行微调。
微调配置:
损失从1.850开始,最后为0.880,在法律语料库上微调后的困惑度为2.2735
设备:2*GeForce GTX TITAN X computeCapability: 5.2
我们在两个下游任务上对模型进行了基准测试:法律文本的多标签分类和带有法律案例描述的关键词检索。
1. LMTC,法律文本的多标签分类
数据集:
标签形状:4271常见标签:739少数标签:3369无标签:163
超参数:
在遮蔽语言模型展厅中,标记具有前缀Ġ。这看起来很奇怪,但我还没有找到解决方法。我知道在BPE分词器(ROBERTA的分词器)的情况下,符号Ġ表示新标记的结束,预训练分词器的大部分标记以Ġ开头。
例如:
import transformers tokenizer = transformers.RobertaTokenizer.from_pretrained('roberta-base') print(tokenizer.tokenize('I love salad'))
输出:
['I', 'Ġlove', 'Ġsalad']
LegalRoBERTa的预训练受限于可用法律语料库的大小,预训练步骤数量相对于流行的领域自适应模型来说很少。这使得LegalRoBERTa的训练程度显著不足。