来自论文 Pre-training Transformers on Indian Legal Text 的InLegalBERT模型和分词器文件。
为构建印度法律文本的预训练语料库,我们收集了印度最高法院和许多高等法院的大量案件文件。我们数据集中的法庭案例范围从1950年到2019年,涵盖了所有法律领域,例如民事、刑事、宪法等等。总共,我们的数据集包含大约540万份印度法律文件(全部使用英语)。原始文本语料库大小约为27 GB。
该模型使用论文 LEGAL-BERT: The Muppets straight out of Law School 中的 LEGAL-BERT-SC model 进行初始化。在我们的工作中,我们将此模型称为LegalBERT,将我们重新训练的模型称为InLegalBERT。我们在掩码语言建模(MLM)和下一个句子预测(NSP)任务上对该模型进行了300K步的进一步训练。
此模型使用与 LegalBERT 相同的分词器。该模型与 bert-base-uncased model 具有相同的配置:12个隐藏层,768个隐藏维度,12个注意力头,约110M个参数。
使用模型为一段文本获取嵌入/表示。
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT") text = "Replace this string with yours" encoded_input = tokenizer(text, return_tensors="pt") model = AutoModel.from_pretrained("law-ai/InLegalBERT") output = model(**encoded_input) last_hidden_state = output.last_hidden_state
我们在印度数据集上对所有预训练模型进行了3个法律任务的微调:
在所有三个任务中,InLegalBERT都击败了LegalBERT以及我们使用的所有其他基线/变体。详情请参阅我们的 paper 。
@inproceedings{paul-2022-pretraining, url = {https://arxiv.org/abs/2209.06049}, author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi}, title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law}, booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023} year = {2023}, }
我们是来自印度理工学院卡拉格普尔分校计算机科学与技术系的研究人员团队。我们的研究兴趣主要是针对法律领域的机器学习和自然语言处理应用,特别关注印度法律场景的挑战和机遇。我们已经并且正在进行几个法律任务的研究,例如:
您可以在 here 中找到我们公开可用的代码和数据集。