这个模型是使用CUAD数据集对"RoBERTa Large"进行微调的版本
CUAD(Atticus项目提供的法律合同审查数据集)是一个针对法律合同审查的数据集。
合同审查是一个"在干草堆中寻找针头"的任务。我们发现Transformer模型在CUAD上具有初步的性能,但这种性能受到模型设计和训练数据集大小的强烈影响。尽管有一些有希望的结果,但仍然有很大的改进空间。作为少数几个由专家标注的大型专业NLP基准之一,CUAD可以成为更广泛的NLP社区的一个具有挑战性的研究基准。
法律合同审查
需要更多信息
本模型不应该被用于有意制造对人类具有敌意或疏离感的环境。
进行了大量的研究来探讨语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测结果可能涉及对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。
用户(包括直接用户和下游用户)应该意识到模型的风险、偏见和限制。需要更多信息以获取进一步的推荐。
有关详细信息,请参见 cuad dataset card
需要更多信息
需要更多信息
需要更多信息
研究人员可能对数GB的未标记的合同预训练数据感兴趣,这些数据可在 here 中找到。
需要更多信息
需要更多信息
我们针对在CUAD上进行微调的三个最佳模型(RoBERTa-base(100M参数)、RoBERTa-large(300M参数)和DeBERTa-xlarge(约900M参数))进行了 provide checkpoints 。
需要更多信息
可以使用 Machine Learning Impact calculator 提供的方法来估计碳排放量。
需要更多信息
需要更多信息
需要更多信息
使用HuggingFace Transformers 库。已经使用Python 3.8、PyTorch 1.7和Transformers 4.3/4.4进行了测试。
BibTeX:
@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={NeurIPS}, year={2021}}
需要更多信息
有关CUAD和法律合同审查的更多详细信息,请参见 Atticus Project website 。
TheAtticusProject
TheAtticusProject ,与Ezi Ozoani和HuggingFace团队合作
使用下面的代码可以开始使用模型。
单击以展开from transformers import AutoTokenizer, AutoModelForQuestionAnswering tokenizer = AutoTokenizer.from_pretrained("akdeniz27/roberta-large-cuad") model = AutoModelForQuestionAnswering.from_pretrained("akdeniz27/roberta-large-cuad")