英文

RoBERTa base在西班牙法律领域语料上进行训练

目录

点击展开
  • 概述
  • 模型描述
  • 拟用途和限制
  • 如何使用
  • 限制和偏见
  • 训练
    • 训练数据
    • 训练过程
  • 评估
  • 附加信息
    • 作者
    • 联系信息
    • 版权
    • 许可信息
    • 资金支持
    • 引用信息
    • 免责声明

概述

  • 架构:roberta-base
  • 语言:西班牙语
  • 任务:fill-mask
  • 数据:法律

模型描述

RoBERTalex 是基于Transformer的掩码语言模型,用于西班牙语。它基于 RoBERTa 基础模型,并使用一个总共有8.9GB文本的大型 Spanish Legal Domain Corpora 进行了预训练。

拟用途和限制

RoBERTalex模型仅适用于填充掩码模型,用于执行填充掩码任务(尝试使用推理API或阅读下一节)。然而,它可以在非生成性下游任务(如问答、文本分类或命名实体识别)上进行微调。您可以使用原始模型填充掩码或将其微调为下游任务。

如何使用

这是如何使用此模型的方法:

>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex')
>>> pprint(unmasker("La ley fue <mask> finalmente."))
[{'score': 0.21217258274555206,
  'sequence': ' La ley fue modificada finalmente.',
  'token': 5781,
  'token_str': ' modificada'},
 {'score': 0.20414969325065613,
  'sequence': ' La ley fue derogada finalmente.',
  'token': 15951,
  'token_str': ' derogada'},
 {'score': 0.19272951781749725,
  'sequence': ' La ley fue aprobada finalmente.',
  'token': 5534,
  'token_str': ' aprobada'},
 {'score': 0.061143241822719574,
  'sequence': ' La ley fue revisada finalmente.',
  'token': 14192,
  'token_str': ' revisada'},
 {'score': 0.041809432208538055,
  'sequence': ' La ley fue aplicada finalmente.',
  'token': 12208,
  'token_str': ' aplicada'}]

这是如何使用此模型获取给定文本的特征的PyTorch代码:

>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> text = "Gracias a los datos legales se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 16, 768])

限制和偏见

在提交时,尚未采取任何措施来评估模型中的偏见。然而,我们非常清楚我们的模型可能会存在偏见,因为语料是通过对多个网络源进行抓取来收集的。我们打算在将来进行这些领域的研究,如果完成,将更新此模型卡片。

训练数据

Spanish Legal Domain Corpora 语料库包括多个数字资源,总计有8.9GB的文本数据。其中一部分来自 previous work 。为了获得高质量的训练语料库,使用了一系列操作对语料进行了预处理,包括句子分割、语言检测、过滤错误格式的句子和去重复内容。在此过程中,保留了文档边界。

训练过程

训练语料库使用了原始 RoBERTA 模型中的字节版本的Byte-Pair编码(BPE)进行了标记化,词汇量大小为50,262个标记。

RoBERTalex的预训练包括掩码语言模型训练,遵循RoBERTa base所采用的方法。该模型使用了2个计算节点进行训练,每个节点配备了4个16GB VRAM的NVIDIA V100 GPU,直到收敛为止。

评估

由于缺乏特定领域的评估数据,该模型在通用领域任务上进行了评估,在该任务上取得了合理的性能。我们在以下任务中对模型进行了微调:

Dataset Metric RoBERtalex
UD-POS F1 0.9871
CoNLL-NERC F1 0.8323
CAPITEL-POS F1 0.9788
CAPITEL-NERC F1 0.8394
STS Combined 0.7374
MLDoc Accuracy 0.9417
PAWS-X F1 0.7304
XNLI Accuracy 0.7337

附加信息

作者

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)( bsc-temu@bsc.es)

联系信息

如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es

版权

西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022)

许可信息

Apache License, Version 2.0

资金支持

此工作得到了西班牙数字化和人工智能国家秘书处(SEDIA)在Plan-TL框架下的资助。

引用信息

@misc{gutierrezfandino2021legal,
      title={Spanish Legalese Language Model and Corpora}, 
      author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2110.12201},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

免责声明

此存储库中发布的模型仅用于通用目的,并且可供第三方使用。这些模型可能存在偏见和/或其他不可取的扭曲。

当第三方使用其中任何一个模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应意识到减轻其使用带来的风险是他们的责任,并且无论如何,都要遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA-数字化和人工智能国家秘书处)和创建者(BSC-巴塞罗那超级计算中心)对第三方使用这些模型产生的结果概不负责。

Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.

当第三方使用其中任何一个模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为模型的用户时,他们应意识到减轻其使用带来的风险是他们的责任,并且无论如何,都要遵守适用的法规,包括关于使用人工智能的法规。

在任何情况下,模型的所有者(SEDIA-数字化和人工智能国家秘书处)和创建者(BSC-巴塞罗那超级计算中心)对第三方使用这些模型产生的结果概不负责。