数据集:
cuad
任务:
问答语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2103.06268许可:
cc-by-4.0CUAD v1(Contract Understanding Atticus Dataset)是一个包含510个商业法律合同中的13,000多个标签的语料库,这些合同已经通过手动标记来识别律师在审查公司交易相关合同时寻找的41个重要条款类别。
CUAD由The Atticus Project, Inc.精心策划和维护,以支持法律合同审查领域的NLP研究和开发。可以在 https://arxiv.org/abs/2103.06268 找到对CUAD的分析。可以在 https://github.com/TheAtticusProject/cuad 找到复制结果和训练模型的代码。
[需要更多信息]
数据集仅包含英语样本。
'train'的示例如下所示。
This example was too long and was cropped: { "answers": { "answer_start": [44], "text": ['DISTRIBUTOR AGREEMENT'] }, "context": 'EXHIBIT 10.6\n\n DISTRIBUTOR AGREEMENT\n\n THIS DISTRIBUTOR AGREEMENT (the "Agreement") is made by and between Electric City Corp., a Delaware corporation ("Company") and Electric City of Illinois LLC ("Distributor") this 7th day of September, 1999...', "id": "LIMEENERGYCO_09_09_1999-EX-10-DISTRIBUTOR AGREEMENT__Document Name_0", "question": "Highlight the parts (if any) of this contract related to "Document Name" that should be reviewed by a lawyer. Details: The name of the contract", "title": "LIMEENERGYCO_09_09_1999-EX-10-DISTRIBUTOR AGREEMENT" }
此数据集分为训练集和测试集。每个集合中的样本数量如下所示:
Train | Test | |
---|---|---|
CUAD | 22450 | 4182 |
合同审查是一项非常有价值的专门任务,但没有公开的大规模数据集。合同审查需要律师耗费大量时间、金钱和注意力。许多律师事务所将大约50%的时间用于合同审查(CEB,2017)。由于理解和解释合同所需的专门培训,美国大型律师事务所律师的计费率通常在每小时500美元至900美元之间。因此,许多交易让公司付出了数十万美元的费用,只是为了让律师验证合同中没有包含任何问题性义务或要求。与其他法律任务相比,合同审查可能是一种乏味的琐事,因此被广泛认为是无聊的。
合同审查成本也会影响消费者。由于合同审查成本过高,因此合同审查通常不会在企业交易之外进行。因此,小公司和个人经常在未阅读合同的情况下签署合同,这可能导致有损害消费者的掠夺行为。通过公开发布高质量的数据和调整优化的模型来自动化合同审查,可以增加小型企业和个人获取法律支持的渠道,使法律支持不仅仅局限于富有的公司。
为减少合同审查的不平等社会成本,并研究NLP模型在专门领域的泛化能力,作者们推出了一种用于合同审查的新的大规模数据集。作为The Atticus Project的一部分,引入了Contract Understanding Atticus Dataset (CUAD)。该数据集是由数十名法学院学生、律师和机器学习研究人员共同努力创建的,耗时一年之久。该数据集包括500多个合同和超过13,000个专家标注,涵盖了41个标签类别。对于每个不同的标签,模型必须学会突出显示合同中与该标签最相关的部分。这使得该任务成为在一堆干草中寻找针一样困难。
CUAD包括从25种不同类型的合同中选择的商业合同,选择基于合同名称,如下所示。在每种类型中,从按字母顺序排列的提交公司名称中随机选择合同。
合同类型: 文档数
Affiliate Agreement: 10 Agency Agreement: 13 Collaboration/Cooperation Agreement: 26 Co-Branding Agreement: 22 Consulting Agreement: 11 Development Agreement: 29 Distributor Agreement: 32 Endorsement Agreement: 24 Franchise Agreement: 15 Hosting Agreement: 20 IP Agreement: 17 Joint Venture Agreemen: 23 License Agreement: 33 Maintenance Agreement: 34 Manufacturing Agreement: 17 Marketing Agreement: 17 Non-Compete/No-Solicit/Non-Disparagement Agreement: 3 Outsourcing Agreement: 18 Promotion Agreement: 12 Reseller Agreement: 12 Service Agreement: 28 Sponsorship Agreement: 31 Supply Agreement: 18 Strategic Alliance Agreement: 32 Transportation Agreement: 13 TOTAL: 510谁是源语言生成者?
这些合同来自美国证券交易委员会(SEC)使用的电子数据收集、分析和检索系统EDGAR。美国上市公司根据SEC的规定需要提交某些合同。这些合同可以免费向公众提供在 https://www.sec.gov/edgar 查看。请阅读 https://www.atticusprojectai.org/ 关于CUAD的数据表以获取有关CUAD的拟议用途和限制的信息。
标注过程分为多个步骤,以确保准确性:
在上面的部分回答了该问题。
文件中的某些条款是经过编辑的,因为提交这些合同的方将其编辑以保护机密性。这种编辑可能显示为星号(***)或下划线(___)或空格。数据集和答案反映了这样的编辑。例如,“1月 ** 2020”的答案将是“1/[]/2020”。
对于需要“Yes/No”答案的类别,注释者在合同中将全句作为文本上下文,并选择完整句子的文本,按照“从期间到期间”的指示进行选择。
对于其他类别,注释者选择响应每个类别的合同文本段落。一个合同中可能包含多个标签。例如,“当事方”可能包括4-10个不连续的文本字符串。答案以统一格式出现,用分号分隔,如“Party A Inc.(“甲方”); Party B Corp.(“乙方”)”。
文件中的某些句子包含机密标识,这些标识不是合同的一部分。此类机密标识的示例如下所示:
此展示已被编辑,并且是机密处理要求的主题。编辑材料用[* * *]标记,并已单独向美国证券交易委员会提交。
文件中的某些句子包含与标识、页码等无关的信息。某些句子可能与相应的类别不相关。某些句子可能对应于不同的类别。由于许多法律条款非常冗长,并包含各种子部分,有时只有句子的一部分与某一类别相关。
为解决上述限制,注释者手动删除不相关的部分,并用符号“”替换,以表示两个文本段在合同中不是相邻的。例如,如果一个“方便终止”条款以“每一方可以终止本协议,如果……”开头,后面跟着三个子部分“(a)、(b)和(c)”,但只有子部分(c)与此类别相关,则作者手动删除子部分(a)和(b),并用符号“”替换。另一个例子是对于“生效日期”,合同包括一句话“本协议自上述日期起生效”,该句出现在日期“2010年1月1日”之后。指示如下:“2010年1月1日 本协议自上述日期起生效。”
由于合同是从PDF转换为TXT文件,转换后的TXT文件可能无法保持与原始PDF文件的格式一致。例如,某些合同中的单词、句子和段落之间的间距不一致。表格式在TXT文件中没有保留。
[需要更多信息]
[需要更多信息]
[需要更多信息]
律师顾问:Wei Chen, John Brockland, Kevin Chen, Jacky Fink, Spencer P. Goodson, Justin Haan, Alex Haskell, Kari Krusmark, Jenny Lin, Jonas Marson, Benjamin Petersen, Alexander Kwonji Rosenberg, William R. Sawyers, Brittany Schmeltz, Max Scott, Zhu Zhu
法学院学生领导:John Batoha, Daisy Beckner, Lovina Consunji, Gina Diaz, Chris Gronseth, Calvin Hannagan, Joseph Kroon, Sheetal Sharma Saran
法学院学生贡献者:Scott Aronin, Bryan Burgoon, Jigar Desai, Imani Haynes, Jeongsoo Kim, Margaret Lynch, Allison Melville, Felix Mendez-Burgos, Nicole Mirkazemi, David Myers, Emily Rissberger, Behrang Seraj, Sarahginy Valcin
技术顾问和贡献者:Dan Hendrycks, Collin Burns, Spencer Ball, Anya Chen
CUAD在Creative Commons Attribution 4.0(CC BY 4.0)许可下发布,对于商业和非商业用途向公众免费开放。
关于所属合同的许可状态,创建者没有提供任何声明或保证,这些合同可以在EDGAR上公开获取并从那里下载。隐私政策和免责声明
数据集中包含的类别或合同不全面或代表性。作者鼓励公众通过将您的评论和建议发送至 info@atticusprojectai.org 来帮助改进它们。评论和建议将由The Atticus Project审查,并在经批准后包含在未来的Atticus类别版本中。
使用CUAD受其隐私政策 https://www.atticusprojectai.org/privacy-policy 和免责声明 https://www.atticusprojectai.org/disclaimer 的约束。
@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={arXiv preprint arXiv:2103.06268}, year={2021} }
感谢 @bhavitvyamalik 添加该数据集。