英文

InLegalBERT

来自论文 Pre-training Transformers on Indian Legal Text 的InLegalBERT模型和分词器文件。

训练数据

为构建印度法律文本的预训练语料库,我们收集了印度最高法院和许多高等法院的大量案件文件。我们数据集中的法庭案例范围从1950年到2019年,涵盖了所有法律领域,例如民事、刑事、宪法等等。总共,我们的数据集包含大约540万份印度法律文件(全部使用英语)。原始文本语料库大小约为27 GB。

训练设置

该模型使用论文 LEGAL-BERT: The Muppets straight out of Law School 中的 LEGAL-BERT-SC model 进行初始化。在我们的工作中,我们将此模型称为LegalBERT,将我们重新训练的模型称为InLegalBERT。我们在掩码语言建模(MLM)和下一个句子预测(NSP)任务上对该模型进行了300K步的进一步训练。

模型概述

此模型使用与 LegalBERT 相同的分词器。该模型与 bert-base-uncased model 具有相同的配置:12个隐藏层,768个隐藏维度,12个注意力头,约110M个参数。

用法

使用模型为一段文本获取嵌入/表示。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state

微调结果

我们在印度数据集上对所有预训练模型进行了3个法律任务的微调:

  • 法律法规识别( ILSI Dataset )[多标签文本分类]:根据法庭案例的事实,确定相关法规(法律条款)
  • 语义分割( ISS Dataset )[句子标记]:将文档分割为7个功能部分(语义段),例如事实、论点等
  • 法庭判决预测( ILDC Dataset )[二元文本分类]:预测法庭案例的主张/请愿是否被接受/拒绝

在所有三个任务中,InLegalBERT都击败了LegalBERT以及我们使用的所有其他基线/变体。详情请参阅我们的 paper

引用

@inproceedings{paul-2022-pretraining,
  url = {https://arxiv.org/abs/2209.06049},
  author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
  title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
  booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
  year = {2023},
}

关于我们

我们是来自印度理工学院卡拉格普尔分校计算机科学与技术系的研究人员团队。我们的研究兴趣主要是针对法律领域的机器学习和自然语言处理应用,特别关注印度法律场景的挑战和机遇。我们已经并且正在进行几个法律任务的研究,例如:

  • 命名实体识别、法律文件摘要
  • 法律文件语义划分
  • 根据事实的法律法规识别、法庭判决预测
  • 法律文件匹配

您可以在 here 中找到我们公开可用的代码和数据集。