数据集:

cuad

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2103.06268

许可:

cc-by-4.0
英文

CUAD数据集的数据卡

数据集摘要

CUAD v1(Contract Understanding Atticus Dataset)是一个包含510个商业法律合同中的13,000多个标签的语料库,这些合同已经通过手动标记来识别律师在审查公司交易相关合同时寻找的41个重要条款类别。

CUAD由The Atticus Project, Inc.精心策划和维护,以支持法律合同审查领域的NLP研究和开发。可以在 https://arxiv.org/abs/2103.06268 找到对CUAD的分析。可以在 https://github.com/TheAtticusProject/cuad 找到复制结果和训练模型的代码。

支持的任务和排行榜

[需要更多信息]

语言

数据集仅包含英语样本。

数据集结构

数据实例

'train'的示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [44],
        "text": ['DISTRIBUTOR AGREEMENT']
    },
    "context": 'EXHIBIT 10.6\n\n DISTRIBUTOR AGREEMENT\n\n THIS  DISTRIBUTOR  AGREEMENT (the  "Agreement")  is made by and between Electric City Corp.,  a Delaware  corporation  ("Company")  and Electric City of Illinois LLC ("Distributor") this 7th day of September, 1999...',
    "id": "LIMEENERGYCO_09_09_1999-EX-10-DISTRIBUTOR AGREEMENT__Document Name_0",
    "question": "Highlight the parts (if any) of this contract related to "Document Name" that should be reviewed by a lawyer. Details: The name of the contract",
    "title": "LIMEENERGYCO_09_09_1999-EX-10-DISTRIBUTOR AGREEMENT"
}

数据字段

  • id : 一个 字符串 特征。
  • title : 一个 字符串 特征。
  • context : 一个 字符串 特征。
  • question : 一个 字符串 特征。
  • answers : 一个包含以下字段的字典特征:
    • text : 一个 字符串 特征。
    • answer_start : 一个 int32 特征。

数据集划分

此数据集分为训练集和测试集。每个集合中的样本数量如下所示:

Train Test
CUAD 22450 4182

数据集创建

策划理由

合同审查是一项非常有价值的专门任务,但没有公开的大规模数据集。合同审查需要律师耗费大量时间、金钱和注意力。许多律师事务所将大约50%的时间用于合同审查(CEB,2017)。由于理解和解释合同所需的专门培训,美国大型律师事务所律师的计费率通常在每小时500美元至900美元之间。因此,许多交易让公司付出了数十万美元的费用,只是为了让律师验证合同中没有包含任何问题性义务或要求。与其他法律任务相比,合同审查可能是一种乏味的琐事,因此被广泛认为是无聊的。

合同审查成本也会影响消费者。由于合同审查成本过高,因此合同审查通常不会在企业交易之外进行。因此,小公司和个人经常在未阅读合同的情况下签署合同,这可能导致有损害消费者的掠夺行为。通过公开发布高质量的数据和调整优化的模型来自动化合同审查,可以增加小型企业和个人获取法律支持的渠道,使法律支持不仅仅局限于富有的公司。

为减少合同审查的不平等社会成本,并研究NLP模型在专门领域的泛化能力,作者们推出了一种用于合同审查的新的大规模数据集。作为The Atticus Project的一部分,引入了Contract Understanding Atticus Dataset (CUAD)。该数据集是由数十名法学院学生、律师和机器学习研究人员共同努力创建的,耗时一年之久。该数据集包括500多个合同和超过13,000个专家标注,涵盖了41个标签类别。对于每个不同的标签,模型必须学会突出显示合同中与该标签最相关的部分。这使得该任务成为在一堆干草中寻找针一样困难。

数据源

初始数据收集和规范化

CUAD包括从25种不同类型的合同中选择的商业合同,选择基于合同名称,如下所示。在每种类型中,从按字母顺序排列的提交公司名称中随机选择合同。

合同类型: 文档数

Affiliate Agreement:		10
Agency Agreement:		    13
Collaboration/Cooperation Agreement: 26
Co-Branding Agreement:		22
Consulting Agreement:		11
Development Agreement:		29
Distributor Agreement:		32
Endorsement Agreement:		24
Franchise Agreement:		15
Hosting Agreement:		20
IP Agreement:			17
Joint Venture Agreemen:		23
License Agreement:		33
Maintenance Agreement:		34
Manufacturing Agreement:	17
Marketing Agreement:		17
Non-Compete/No-Solicit/Non-Disparagement Agreement: 3
Outsourcing Agreement:		18
Promotion Agreement:		12
Reseller Agreement:		12
Service Agreement:		28
Sponsorship Agreement:		31
Supply Agreement:		18
Strategic Alliance Agreement:	32
Transportation Agreement:	13
TOTAL:				510
谁是源语言生成者?

这些合同来自美国证券交易委员会(SEC)使用的电子数据收集、分析和检索系统EDGAR。美国上市公司根据SEC的规定需要提交某些合同。这些合同可以免费向公众提供在 https://www.sec.gov/edgar 查看。请阅读 https://www.atticusprojectai.org/ 关于CUAD的数据表以获取有关CUAD的拟议用途和限制的信息。

注释

注释过程

标注过程分为多个步骤,以确保准确性:

  • 法学院学生培训:法学院学生参加了关于每个类别的培训课程,课程包括摘要、经验律师的视频说明、多次测验和研讨会。然后,学生需要在eBrevia,一个在线合同审查工具中对样本合同进行标注。初始培训所需时间约为70-100小时。
  • 法学院学生标注:法学院学生在eBrevia中进行手动合同审查和标注。
  • 关键词搜索:法学院学生在eBrevia中进行关键词搜索,捕获在“学生标注”步骤中被遗漏的额外类别。
  • 类别逐一报告审查:法学院学生将标记的条款导出为报告,逐一审查每个类别的条款,并突出显示他们认为标错的条款。
  • 律师审查:经验丰富的律师与学生共同审查每个类别的报告,提供评论并回答学生的问题。必要时,律师与学生讨论此类结果并达成一致意见。学生相应地在eBrevia中进行更改。
  • eBrevia附加审查。律师和学生使用eBrevia生成“extras”列表,这些列表是eBrevia AI工具识别出来的响应类别的条款,但未被人工标注者标记。律师和学生审查所有的“extras”并添加正确的条款。此过程重复进行,直到所有或几乎所有的“extras”均被错误标记。
  • 最终报告:最终报告被导出到CSV文件中。志愿者手动为不包含答案的类别添加了“Yes/No”答案列。
  • 谁是标注者?

    在上面的部分回答了该问题。

    个人和敏感信息

    文件中的某些条款是经过编辑的,因为提交这些合同的方将其编辑以保护机密性。这种编辑可能显示为星号(***)或下划线(___)或空格。数据集和答案反映了这样的编辑。例如,“1月 ** 2020”的答案将是“1/[]/2020”。

    对于需要“Yes/No”答案的类别,注释者在合同中将全句作为文本上下文,并选择完整句子的文本,按照“从期间到期间”的指示进行选择。

    对于其他类别,注释者选择响应每个类别的合同文本段落。一个合同中可能包含多个标签。例如,“当事方”可能包括4-10个不连续的文本字符串。答案以统一格式出现,用分号分隔,如“Party A Inc.(“甲方”); Party B Corp.(“乙方”)”。

    文件中的某些句子包含机密标识,这些标识不是合同的一部分。此类机密标识的示例如下所示:

    此展示已被编辑,并且是机密处理要求的主题。编辑材料用[* * *]标记,并已单独向美国证券交易委员会提交。

    文件中的某些句子包含与标识、页码等无关的信息。某些句子可能与相应的类别不相关。某些句子可能对应于不同的类别。由于许多法律条款非常冗长,并包含各种子部分,有时只有句子的一部分与某一类别相关。

    为解决上述限制,注释者手动删除不相关的部分,并用符号“”替换,以表示两个文本段在合同中不是相邻的。例如,如果一个“方便终止”条款以“每一方可以终止本协议,如果……”开头,后面跟着三个子部分“(a)、(b)和(c)”,但只有子部分(c)与此类别相关,则作者手动删除子部分(a)和(b),并用符号“”替换。另一个例子是对于“生效日期”,合同包括一句话“本协议自上述日期起生效”,该句出现在日期“2010年1月1日”之后。指示如下:“2010年1月1日 本协议自上述日期起生效。”

    由于合同是从PDF转换为TXT文件,转换后的TXT文件可能无法保持与原始PDF文件的格式一致。例如,某些合同中的单词、句子和段落之间的间距不一致。表格式在TXT文件中没有保留。

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集策划者

    律师顾问:Wei Chen, John Brockland, Kevin Chen, Jacky Fink, Spencer P. Goodson, Justin Haan, Alex Haskell, Kari Krusmark, Jenny Lin, Jonas Marson, Benjamin Petersen, Alexander Kwonji Rosenberg, William R. Sawyers, Brittany Schmeltz, Max Scott, Zhu Zhu

    法学院学生领导:John Batoha, Daisy Beckner, Lovina Consunji, Gina Diaz, Chris Gronseth, Calvin Hannagan, Joseph Kroon, Sheetal Sharma Saran

    法学院学生贡献者:Scott Aronin, Bryan Burgoon, Jigar Desai, Imani Haynes, Jeongsoo Kim, Margaret Lynch, Allison Melville, Felix Mendez-Burgos, Nicole Mirkazemi, David Myers, Emily Rissberger, Behrang Seraj, Sarahginy Valcin

    技术顾问和贡献者:Dan Hendrycks, Collin Burns, Spencer Ball, Anya Chen

    许可信息

    CUAD在Creative Commons Attribution 4.0(CC BY 4.0)许可下发布,对于商业和非商业用途向公众免费开放。

    关于所属合同的许可状态,创建者没有提供任何声明或保证,这些合同可以在EDGAR上公开获取并从那里下载。隐私政策和免责声明

    数据集中包含的类别或合同不全面或代表性。作者鼓励公众通过将您的评论和建议发送至 info@atticusprojectai.org 来帮助改进它们。评论和建议将由The Atticus Project审查,并在经批准后包含在未来的Atticus类别版本中。

    使用CUAD受其隐私政策 https://www.atticusprojectai.org/privacy-policy 和免责声明 https://www.atticusprojectai.org/disclaimer 的约束。

    引用信息

    @article{hendrycks2021cuad,
          title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review},
          author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball},
          journal={arXiv preprint arXiv:2103.06268},
          year={2021}
    }
    

    贡献

    感谢 @bhavitvyamalik 添加该数据集。