模型:
PlanTL-GOB-ES/RoBERTalex
RoBERTalex 是基于Transformer的掩码语言模型,用于西班牙语。它基于 RoBERTa 基础模型,并使用一个总共有8.9GB文本的大型 Spanish Legal Domain Corpora 进行了预训练。
RoBERTalex模型仅适用于填充掩码模型,用于执行填充掩码任务(尝试使用推理API或阅读下一节)。然而,它可以在非生成性下游任务(如问答、文本分类或命名实体识别)上进行微调。您可以使用原始模型填充掩码或将其微调为下游任务。
这是如何使用此模型的方法:
>>> from transformers import pipeline >>> from pprint import pprint >>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex') >>> pprint(unmasker("La ley fue <mask> finalmente.")) [{'score': 0.21217258274555206, 'sequence': ' La ley fue modificada finalmente.', 'token': 5781, 'token_str': ' modificada'}, {'score': 0.20414969325065613, 'sequence': ' La ley fue derogada finalmente.', 'token': 15951, 'token_str': ' derogada'}, {'score': 0.19272951781749725, 'sequence': ' La ley fue aprobada finalmente.', 'token': 5534, 'token_str': ' aprobada'}, {'score': 0.061143241822719574, 'sequence': ' La ley fue revisada finalmente.', 'token': 14192, 'token_str': ' revisada'}, {'score': 0.041809432208538055, 'sequence': ' La ley fue aplicada finalmente.', 'token': 12208, 'token_str': ' aplicada'}]
这是如何使用此模型获取给定文本的特征的PyTorch代码:
>>> from transformers import RobertaTokenizer, RobertaModel >>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex') >>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex') >>> text = "Gracias a los datos legales se ha podido desarrollar este modelo del lenguaje." >>> encoded_input = tokenizer(text, return_tensors='pt') >>> output = model(**encoded_input) >>> print(output.last_hidden_state.shape) torch.Size([1, 16, 768])
在提交时,尚未采取任何措施来评估模型中的偏见。然而,我们非常清楚我们的模型可能会存在偏见,因为语料是通过对多个网络源进行抓取来收集的。我们打算在将来进行这些领域的研究,如果完成,将更新此模型卡片。
Spanish Legal Domain Corpora 语料库包括多个数字资源,总计有8.9GB的文本数据。其中一部分来自 previous work 。为了获得高质量的训练语料库,使用了一系列操作对语料进行了预处理,包括句子分割、语言检测、过滤错误格式的句子和去重复内容。在此过程中,保留了文档边界。
训练语料库使用了原始 RoBERTA 模型中的字节版本的Byte-Pair编码(BPE)进行了标记化,词汇量大小为50,262个标记。
RoBERTalex的预训练包括掩码语言模型训练,遵循RoBERTa base所采用的方法。该模型使用了2个计算节点进行训练,每个节点配备了4个16GB VRAM的NVIDIA V100 GPU,直到收敛为止。
由于缺乏特定领域的评估数据,该模型在通用领域任务上进行了评估,在该任务上取得了合理的性能。我们在以下任务中对模型进行了微调:
Dataset | Metric | RoBERtalex |
---|---|---|
UD-POS | F1 | 0.9871 |
CoNLL-NERC | F1 | 0.8323 |
CAPITEL-POS | F1 | 0.9788 |
CAPITEL-NERC | F1 | 0.8394 |
STS | Combined | 0.7374 |
MLDoc | Accuracy | 0.9417 |
PAWS-X | F1 | 0.7304 |
XNLI | Accuracy | 0.7337 |
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es)
如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es
西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022)
此工作得到了西班牙数字化和人工智能国家秘书处(SEDIA)在Plan-TL框架下的资助。
@misc{gutierrezfandino2021legal, title={Spanish Legalese Language Model and Corpora}, author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas}, year={2021}, eprint={2110.12201}, archivePrefix={arXiv}, primaryClass={cs.CL} }
此存储库中发布的模型仅用于通用目的,并且可供第三方使用。这些模型可能存在偏见和/或其他不可取的扭曲。
当第三方使用其中任何一个模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应意识到减轻其使用带来的风险是他们的责任,并且无论如何,都要遵守适用的法规,包括关于使用人工智能的法规。
在任何情况下,模型的所有者(SEDIA-数字化和人工智能国家秘书处)和创建者(BSC-巴塞罗那超级计算中心)对第三方使用这些模型产生的结果概不负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
当第三方使用其中任何一个模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应意识到减轻其使用带来的风险是他们的责任,并且无论如何,都要遵守适用的法规,包括关于使用人工智能的法规。
在任何情况下,模型的所有者(SEDIA-数字化和人工智能国家秘书处)和创建者(BSC-巴塞罗那超级计算中心)对第三方使用这些模型产生的结果概不负责。