英文

RoBERTa Large模型使用CUAD数据集进行微调的模型卡片

这个模型是使用CUAD数据集对"RoBERTa Large"进行微调的版本

模型细节

模型描述

CUAD(Atticus项目提供的法律合同审查数据集)是一个针对法律合同审查的数据集。

合同审查是一个"在干草堆中寻找针头"的任务。我们发现Transformer模型在CUAD上具有初步的性能,但这种性能受到模型设计和训练数据集大小的强烈影响。尽管有一些有希望的结果,但仍然有很大的改进空间。作为少数几个由专家标注的大型专业NLP基准之一,CUAD可以成为更广泛的NLP社区的一个具有挑战性的研究基准。

  • 开发者:TheAtticusProject
  • 分享者[可选]:HuggingFace
  • 模型类型:语言模型
  • 语言:英语
  • 许可证:需要更多信息
  • 相关模型:RoBERTA
    • 父模型:RoBERTA Large
  • 获取更多信息的资源:
  • GitHub Repo
  • Associated Paper

使用方式

直接使用

法律合同审查

下游使用[可选]

需要更多信息

不适用范围

本模型不应该被用于有意制造对人类具有敌意或疏离感的环境。

偏见、风险和限制

进行了大量的研究来探讨语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测结果可能涉及对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

推荐

用户(包括直接用户和下游用户)应该意识到模型的风险、偏见和限制。需要更多信息以获取进一步的推荐。

训练细节

训练数据

有关详细信息,请参见 cuad dataset card

训练过程

需要更多信息

预处理

需要更多信息

速度、大小、时间

需要更多信息

评估

测试数据、因素和指标

测试数据

研究人员可能对数GB的未标记的合同预训练数据感兴趣,这些数据可在 here 中找到。

因素

需要更多信息

指标

需要更多信息

结果

我们针对在CUAD上进行微调的三个最佳模型(RoBERTa-base(100M参数)、RoBERTa-large(300M参数)和DeBERTa-xlarge(约900M参数))进行了 provide checkpoints

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 提供的方法来估计碳排放量。

  • 硬件类型:需要更多信息
  • 使用时间:需要更多信息
  • 云服务提供商:需要更多信息
  • 计算区域:需要更多信息
  • 排放产生的碳量:需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

使用HuggingFace Transformers 库。已经使用Python 3.8、PyTorch 1.7和Transformers 4.3/4.4进行了测试。

引用

BibTeX:

@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={NeurIPS}, year={2021}}

术语表[可选]

需要更多信息

更多信息[可选]

有关CUAD和法律合同审查的更多详细信息,请参见 Atticus Project website

模型卡片作者[可选]

TheAtticusProject

模型卡片联系方式

TheAtticusProject ,与Ezi Ozoani和HuggingFace团队合作

如何开始使用模型

使用下面的代码可以开始使用模型。

单击以展开
 
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
 
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/roberta-large-cuad")
 
model = AutoModelForQuestionAnswering.from_pretrained("akdeniz27/roberta-large-cuad")