英文

InCaseLawBERT

来自论文 Pre-training Transformers on Indian Legal Text 的InCaseLawBERT模型及其tokenizer文件。

训练数据

为了构建印度法律文本的预训练语料库,我们收集了来自印度最高法院和许多高等法院的大量案件文件。我们的数据集中的案件涵盖了从1950年到2019年的时间范围,并涉及各种法律领域,如民事、刑事、宪法等。总共,我们的数据集包含约540万份印度法律文件(全部为英文)。原始文本语料库的大小约为27 GB。

训练设置

该模型使用论文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT model 进行初始化。在我们的工作中,我们将该模型称为CaseLawBERT,将重新训练的模型称为InCaseLawBERT。我们在Masked Language Modeling(MLM)和Next Sentence Prediction(NSP)任务上对该模型进行了进一步的300K步的训练。

模型概述

该模型使用与论文 CaseLawBERT 相同的tokenizer。该模型的配置与论文 bert-base-uncased model 相同:12个隐藏层,768个隐藏维度,12个注意力头,约110M参数。

使用方法

使用该模型为一段文本获取嵌入/表示。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state

微调结果

我们已经使用印度数据集对所有预训练模型进行了3个法律任务的微调:

  • 法律法规识别( ILSI Dataset )[多标签文本分类]:根据案件事实确定相关的法规(法律条款)
  • 语义分割( ISS Dataset )[句子标记]:将文档分为7个功能部分(语义段),如事实、论点等
  • 法院判决预测( ILDC Dataset )[二元文本分类]:预测法庭案件的请求/诉讼是否会被接受/驳回

在这三个任务上,InCaseLawBERT的表现接近CaseLawBERT,但不如 InLegalBERT 。详细信息请参阅我们的 paper

引用

@inproceedings{paul-2022-pretraining,
  url = {https://arxiv.org/abs/2209.06049},
  author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
  title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
  booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
  year = {2023},
}

关于我们

我们是来自印度理工学院卡拉格普尔分校计算机科学与技术系的一组研究人员。我们的研究兴趣主要集中在法律领域的机器学习和自然语言处理应用,特别关注印度法律情景的挑战和机会。我们已经并正在处理多项法律任务,如:

  • 命名实体识别、法律文件摘要
  • 法律文件的语义分割
  • 根据事实进行法规识别、法院判决预测
  • 法律文件匹配。您可以在 here 中找到我们公开可用的代码和数据集。