模型:
dlicari/Italian-Legal-BERT-SC
这是基于CamemBERT架构在意大利法律文件上从头开始预训练的变体(ITA-LEGAL-BERT-SC)
它是使用更大的训练数据集进行从头训练的,包括6.6GB的民事和刑事案件。我们使用了 CamemBERT 架构,顶部使用了语言建模头部,AdamW Optimizer优化器,初始学习率为2e-5(线性学习率衰减),序列长度为512,批量大小为18,训练步骤为100万次,设备为8*NVIDIA A100 40GB,使用分布式数据并行(每个步骤执行8个批次)。它使用从头开始训练的SentencePiece分词,训练于训练集的一个子集(500万个句子),词汇大小为32000
ITALIAN-LEGAL-BERT模型可以这样加载:
from transformers import AutoModel, AutoTokenizer model_name = "dlicari/Italian-Legal-BERT-SC" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name)
您可以使用Transformers库的fill-mask流程对ITALIAN-LEGAL-BERT进行推断。
# %pip install sentencepiece # %pip install transformers from transformers import pipeline model_name = "dlicari/Italian-Legal-BERT-SC" fill_mask = pipeline("fill-mask", model_name) fill_mask("Il <mask> ha chiesto revocarsi l'obbligo di pagamento") # [{'score': 0.6529251933097839,'token_str': 'ricorrente', # {'score': 0.0380014143884182, 'token_str': 'convenuto', # {'score': 0.0360226035118103, 'token_str': 'richiedente', # {'score': 0.023908283561468124,'token_str': 'Condominio', # {'score': 0.020863816142082214, 'token_str': 'lavoratore'}]