来自论文 Pre-training Transformers on Indian Legal Text 的InCaseLawBERT模型及其tokenizer文件。
为了构建印度法律文本的预训练语料库,我们收集了来自印度最高法院和许多高等法院的大量案件文件。我们的数据集中的案件涵盖了从1950年到2019年的时间范围,并涉及各种法律领域,如民事、刑事、宪法等。总共,我们的数据集包含约540万份印度法律文件(全部为英文)。原始文本语料库的大小约为27 GB。
该模型使用论文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT model 进行初始化。在我们的工作中,我们将该模型称为CaseLawBERT,将重新训练的模型称为InCaseLawBERT。我们在Masked Language Modeling(MLM)和Next Sentence Prediction(NSP)任务上对该模型进行了进一步的300K步的训练。
该模型使用与论文 CaseLawBERT 相同的tokenizer。该模型的配置与论文 bert-base-uncased model 相同:12个隐藏层,768个隐藏维度,12个注意力头,约110M参数。
使用该模型为一段文本获取嵌入/表示。
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT") text = "Replace this string with yours" encoded_input = tokenizer(text, return_tensors="pt") model = AutoModel.from_pretrained("law-ai/InCaseLawBERT") output = model(**encoded_input) last_hidden_state = output.last_hidden_state
我们已经使用印度数据集对所有预训练模型进行了3个法律任务的微调:
在这三个任务上,InCaseLawBERT的表现接近CaseLawBERT,但不如 InLegalBERT 。详细信息请参阅我们的 paper 。
@inproceedings{paul-2022-pretraining, url = {https://arxiv.org/abs/2209.06049}, author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi}, title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law}, booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023} year = {2023}, }
我们是来自印度理工学院卡拉格普尔分校计算机科学与技术系的一组研究人员。我们的研究兴趣主要集中在法律领域的机器学习和自然语言处理应用,特别关注印度法律情景的挑战和机会。我们已经并正在处理多项法律任务,如: