数据集:
pile-of-law/pile-of-law
任务:
填充掩码语言:
en计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation预印本库:
arxiv:2207.00220许可:
cc-by-nc-sa-4.0我们整理了一个大型的法律和行政数据语料库。这些数据的实用性有两个方面:(1)聚合法律和行政数据源,展示不同的数据过滤规范和法律标准;(2)收集一个可以被未来用于预训练法律领域语言模型的数据集,这是促进公正获取司法资源的关键方向。
详见论文了解详情。
主要是英文,但部分数据可能包含其他语言。
courtListener_docket_entry_documents : 包括美国联邦法院的案号记录,包括CourtListener RECAP档案中的已提交的法庭记录。
courtListener_opinions : 来自CourtListener的美国法院裁决意见(截至2022年12月31日同步的数据)。
atticus_contracts : Atticus Project中的未注释合同。
federal_register : 美国联邦公报,其中机构提交草案规章的文件。
bva_opinions : 美国退伍军人事务局的裁决意见。
us_bills : 来自美国国会的法案草案。
cc_casebooks : 根据开放的CC许可证发布的教育案书。
tos : 未注释的服务条款合同。
euro_parl : 欧洲议会辩论。
nlrb_decisions : 来自美国国家劳动关系委员会的裁决。
scotus_oral_arguments : 美国最高法院的口头辩论。
cfr : 美国联邦法规。
state_codes : 美国州法典。
scotus_filings : 向美国最高法院提交的书面意见和申诉。
exam_outlines : 可在网上公开获取的考试大纲。
edgar : 提交给SEC并在其Edgar工具上提供的合同。
cfpb_creditcard_contracts : 美国消费金融保护局编制的信用卡合同。
constitutions : 全球各国宪法。
congressional_hearings : 美国国会听证会记录和声明。
oig : 美国检察官办公室的报告。
olc_memos : 美国法律顾问办公室的备忘录。
uscode : 美国法典(法律)。
founding_docs : 美国创始人的信件。
ftc_advisory_opinions : 美国联邦贸易委员会的咨询意见。
echr : 欧洲人权法院的意见。
eurlex : 欧洲法律。
tax_rulings : 美国税务法院的裁判。
un_debates : 联合国大会辩论。
fre : 美国联邦证据规则。
frcp : 美国联邦民事诉讼程序规则。
canadian_decisions : 加拿大安大略省和不列颠哥伦比亚省的法院裁决。
eoir : 美国移民法庭执行办公室移民和国籍先例决定。
dol_ecab : 劳工部雇员赔偿上诉委员会在2006年之后的裁决。
r_legaladvice : 格式为[帖子标题]问题:[帖子内容]主题:[帖子标签]答案#[N]:[顶部答案]的r/legaladvice和r/legaladviceofftopic子版块的筛选数据。
acus_reports : 来自美国行政管理会议的报告(2010年-2022年)。
ed_policy_guidance : 美国教育部的政策指导文件(2001年-2022年)。
uspto_office_actions : 美国专利商标局的办公行动(2019年-2022年)。
icj-pcij : 国际法院和常设国际法院的裁判。
hhs_alj_opinions : 来自美国卫生与公众服务部行政法法官(1985年-2019年)的意见。
sec_administrative_proceedings : 来自美国证券交易委员会的行政诉讼的重要诉状、命令和裁决(2005年-2022年)。
fmshrc_bluebooks : 来自美国联邦矿山安全和健康审查委员会的蓝皮书(1979年3月至2022年8月)。
resource_contracts : 由ResourceContracts.org收集的资源合同。
medicaid_policy_guidance : 来自美国卫生与公众服务部的政策指导文件(1994年-2022年)。
irs_legal_advice_memos : 来自美国国内税务局的法律建议备忘录。
doj_guidance : 来自美国司法部的指导文件(2020年-2022年)。
1/23更新 : 2023年更新的数据包括:同步更新CourtListener意见,添加ACUS报告、USPTO办公行动、教育政策指导、HHS ALJ意见、SEC行政诉讼、FMSHRC蓝皮书和ICJ/PCIJ法律意见。我们还修复了OLC意见中的某些格式不一致之处,并将考试大纲合并为一个文件,添加了一些额外的考试大纲。
由于缓存和压缩的原因,磁盘上的大小可能会有所不同,但按照2023年1月7日的数据来说,大致如下。
% xz --list data/*.xz Strms Blocks Compressed Uncompressed Ratio Check Filename 183 181 9,631.2 KiB 35.0 MiB 0.268 CRC64 data/train.acus_reports.jsonl.xz 1 1 1,024.1 MiB 6,804.7 MiB 0.150 CRC64 data/train.atticus_contracts.0.jsonl.xz 1 1 1,024.1 MiB 6,781.1 MiB 0.151 CRC64 data/train.atticus_contracts.1.jsonl.xz 1 1 1,024.1 MiB 6,790.1 MiB 0.151 CRC64 data/train.atticus_contracts.2.jsonl.xz 1 1 1,024.1 MiB 6,759.2 MiB 0.152 CRC64 data/train.atticus_contracts.3.jsonl.xz 1 1 139.9 MiB 925.0 MiB 0.151 CRC64 data/train.atticus_contracts.4.jsonl.xz 1 1 1,564.6 MiB 12.5 GiB 0.123 CRC64 data/train.bva.jsonl.xz 1 1 29.8 MiB 154.3 MiB 0.193 CRC64 data/train.canadian_decisions.jsonl.xz 1 1 18.5 MiB 82.6 MiB 0.224 CRC64 data/train.cc_casebooks.jsonl.xz 1 1 3,427.3 KiB 67.2 MiB 0.050 CRC64 data/train.cfpb_cc.jsonl.xz 1 1 72.7 MiB 582.6 MiB 0.125 CRC64 data/train.cfr.jsonl.xz 1 1 1,056.1 MiB 4,941.9 MiB 0.214 CRC64 data/train.congressional_hearings.jsonl.xz 1 1 3,272.4 KiB 21.3 MiB 0.150 CRC64 data/train.constitutions.jsonl.xz 1 1 1,024.1 MiB 13.0 GiB 0.077 CRC64 data/train.courtlistenerdocketentries.0.jsonl.xz 1 1 1,024.3 MiB 13.3 GiB 0.075 CRC64 data/train.courtlistenerdocketentries.1.jsonl.xz 1 1 1,024.1 MiB 12.4 GiB 0.080 CRC64 data/train.courtlistenerdocketentries.2.jsonl.xz 1 1 635.2 MiB 8,671.6 MiB 0.073 CRC64 data/train.courtlistenerdocketentries.3.jsonl.xz 1 1 953.7 MiB 4,575.7 MiB 0.208 CRC64 data/train.courtlisteneropinions.0.jsonl.xz 1 1 953.7 MiB 4,356.2 MiB 0.219 CRC64 data/train.courtlisteneropinions.1.jsonl.xz 1 1 953.7 MiB 4,315.6 MiB 0.221 CRC64 data/train.courtlisteneropinions.10.jsonl.xz 1 1 953.7 MiB 4,650.3 MiB 0.205 CRC64 data/train.courtlisteneropinions.11.jsonl.xz 1 1 953.7 MiB 4,836.3 MiB 0.197 CRC64 data/train.courtlisteneropinions.12.jsonl.xz 1 1 953.7 MiB 4,644.9 MiB 0.205 CRC64 data/train.courtlisteneropinions.13.jsonl.xz 1 1 953.7 MiB 4,657.5 MiB 0.205 CRC64 data/train.courtlisteneropinions.14.jsonl.xz 1 1 539.2 MiB 2,621.8 MiB 0.206 CRC64 data/train.courtlisteneropinions.15.jsonl.xz 1 1 953.7 MiB 4,335.3 MiB 0.220 CRC64 data/train.courtlisteneropinions.2.jsonl.xz 1 1 953.7 MiB 4,352.0 MiB 0.219 CRC64 data/train.courtlisteneropinions.3.jsonl.xz 1 1 953.7 MiB 4,575.9 MiB 0.208 CRC64 data/train.courtlisteneropinions.4.jsonl.xz 1 1 953.7 MiB 4,382.6 MiB 0.218 CRC64 data/train.courtlisteneropinions.5.jsonl.xz 1 1 953.7 MiB 4,352.3 MiB 0.219 CRC64 data/train.courtlisteneropinions.6.jsonl.xz 1 1 953.7 MiB 4,462.4 MiB 0.214 CRC64 data/train.courtlisteneropinions.7.jsonl.xz 1 1 953.7 MiB 4,604.0 MiB 0.207 CRC64 data/train.courtlisteneropinions.8.jsonl.xz 1 1 953.7 MiB 4,612.0 MiB 0.207 CRC64 data/train.courtlisteneropinions.9.jsonl.xz 335 335 6,047.4 KiB 24.1 MiB 0.245 CRC64 data/train.doj_guidance.jsonl.xz 1 1 41.1 MiB 305.6 MiB 0.135 CRC64 data/train.dol_ecab.jsonl.xz 1 1 19.1 MiB 100.5 MiB 0.190 CRC64 data/train.echr.jsonl.xz 508 507 1,502.0 KiB 4,716.7 KiB 0.318 CRC64 data/train.ed_policy_guidance.jsonl.xz 1 1 1,372.0 MiB 9,032.6 MiB 0.152 CRC64 data/train.edgar.jsonl.xz 1 1 3,896.6 KiB 18.6 MiB 0.205 CRC64 data/train.eoir.jsonl.xz 1 1 140.3 MiB 1,154.7 MiB 0.121 CRC64 data/train.eurlex.jsonl.xz 1 1 51.4 MiB 239.4 MiB 0.215 CRC64 data/train.euro_parl.jsonl.xz 1 1 355.3 KiB 1,512.5 KiB 0.235 CRC64 data/train.examoutlines.jsonl.xz 1 1 20.7 MiB 131.7 MiB 0.157 CRC64 data/train.federal_register.jsonl.xz 396 396 43.9 MiB 175.7 MiB 0.250 CRC64 data/train.fmshrc.jsonl.xz 1 1 73.4 MiB 341.7 MiB 0.215 CRC64 data/train.founding_docs.jsonl.xz 1 1 324.2 KiB 1,459.4 KiB 0.222 CRC64 data/train.frcp.jsonl.xz 1 1 116.1 KiB 484.9 KiB 0.239 CRC64 data/train.fre.jsonl.xz 1 1 297.3 KiB 1,245.0 KiB 0.239 CRC64 data/train.ftc_advisory_opinions.jsonl.xz 2,084 2,083 13.4 MiB 42.2 MiB 0.318 CRC64 data/train.hhs_alj.jsonl.xz 1 1 29.5 MiB 157.4 MiB 0.188 CRC64 data/train.ijc.jsonl.xz 442 442 7,904.4 KiB 35.8 MiB 0.216 CRC64 data/train.irs_legal_advice_memos.jsonl.xz 658 658 3,403.1 KiB 10.6 MiB 0.314 CRC64 data/train.medicaid_policy_guidance.jsonl.xz 1 1 170.7 MiB 788.9 MiB 0.216 CRC64 data/train.nlrb_decisions.jsonl.xz 1 1 218.4 MiB 1,580.3 MiB 0.138 CRC64 data/train.oig.jsonl.xz 1 1 5,857.4 KiB 31.5 MiB 0.182 CRC64 data/train.olc_memos.jsonl.xz 1 1 58.6 MiB 234.5 MiB 0.250 CRC64 data/train.r_legaldvice.jsonl.xz 1,639 1,639 43.7 MiB 188.1 MiB 0.232 CRC64 data/train.resource_contracts.jsonl.xz 1 1 242.6 MiB 1,241.6 MiB 0.195 CRC64 data/train.scotus_docket_entries.jsonl.xz 1 1 68.5 MiB 323.2 MiB 0.212 CRC64 data/train.scotus_oral.jsonl.xz 10,805 10,805 40.7 MiB 118.4 MiB 0.344 CRC64 data/train.sec.jsonl.xz 1 1 705.0 MiB 5,019.9 MiB 0.140 CRC64 data/train.state_code.jsonl.xz 1 1 75.2 MiB 540.8 MiB 0.139 CRC64 data/train.taxrulings.jsonl.xz 1 1 273.6 KiB 1,318.5 KiB 0.207 CRC64 data/train.tos.jsonl.xz 1 1 22.6 MiB 108.1 MiB 0.209 CRC64 data/train.undebates.jsonl.xz 1 1 167.6 MiB 1,119.6 MiB 0.150 CRC64 data/train.us_bills.jsonl.xz 1 1 25.3 MiB 196.1 MiB 0.129 CRC64 data/train.uscode.jsonl.xz 1 1 1,713.2 MiB 33.7 GiB 0.050 CRC64 data/train.uspto_oab.jsonl.xz 54 54 2,960.9 KiB 11.0 MiB 0.264 CRC64 data/validation.acus_reports.jsonl.xz 1 1 1,024.1 MiB 6,797.1 MiB 0.151 CRC64 data/validation.atticus_contracts.0.jsonl.xz 1 1 374.6 MiB 2,471.7 MiB 0.152 CRC64 data/validation.atticus_contracts.1.jsonl.xz 1 1 523.0 MiB 4,258.9 MiB 0.123 CRC64 data/validation.bva.jsonl.xz 1 1 9.8 MiB 50.5 MiB 0.195 CRC64 data/validation.canadian_decisions.jsonl.xz 1 1 4,281.5 KiB 19.1 MiB 0.219 CRC64 data/validation.cc_casebooks.jsonl.xz 1 1 1,532.6 KiB 19.6 MiB 0.077 CRC64 data/validation.cfpb_cc.jsonl.xz 1 1 23.3 MiB 190.4 MiB 0.122 CRC64 data/validation.cfr.jsonl.xz 1 1 347.4 MiB 1,620.7 MiB 0.214 CRC64 data/validation.congressional_hearings.jsonl.xz 1 1 1,102.4 KiB 6,733.0 KiB 0.164 CRC64 data/validation.constitutions.jsonl.xz 1 1 1,024.1 MiB 10.7 GiB 0.094 CRC64 data/validation.courtlistenerdocketentries.0.jsonl.xz 1 1 473.7 MiB 5,225.2 MiB 0.091 CRC64 data/validation.courtlistenerdocketentries.1.jsonl.xz 1 1 953.7 MiB 4,391.3 MiB 0.217 CRC64 data/validation.courtlisteneropinions.0.jsonl.xz 1 1 953.7 MiB 4,406.9 MiB 0.216 CRC64 data/validation.courtlisteneropinions.1.jsonl.xz 1 1 953.8 MiB 4,436.7 MiB 0.215 CRC64 data/validation.courtlisteneropinions.2.jsonl.xz 1 1 953.7 MiB 4,476.9 MiB 0.213 CRC64 data/validation.courtlisteneropinions.3.jsonl.xz 1 1 953.7 MiB 4,618.0 MiB 0.207 CRC64 data/validation.courtlisteneropinions.4.jsonl.xz 1 1 238.5 MiB 1,147.4 MiB 0.208 CRC64 data/validation.courtlisteneropinions.5.jsonl.xz 100 100 1,778.7 KiB 7,371.5 KiB 0.241 CRC64 data/validation.doj_guidance.jsonl.xz 1 1 13.8 MiB 101.5 MiB 0.136 CRC64 data/validation.dol_ecab.jsonl.xz 1 1 4,132.1 KiB 20.8 MiB 0.194 CRC64 data/validation.echr.jsonl.xz 174 173 490.5 KiB 1,564.9 KiB 0.313 CRC64 data/validation.ed_policy_guidance.jsonl.xz 1 1 453.6 MiB 2,978.9 MiB 0.152 CRC64 data/validation.edgar.jsonl.xz 1 1 1,340.0 KiB 6,294.8 KiB 0.213 CRC64 data/validation.eoir.jsonl.xz 1 1 49.1 MiB 393.7 MiB 0.125 CRC64 data/validation.eurlex.jsonl.xz 1 1 17.0 MiB 79.0 MiB 0.215 CRC64 data/validation.euro_parl.jsonl.xz 1 1 103.7 KiB 547.9 KiB 0.189 CRC64 data/validation.examoutlines.jsonl.xz 1 1 7,419.0 KiB 45.7 MiB 0.158 CRC64 data/validation.federal_register.jsonl.xz 120 120 13.5 MiB 53.9 MiB 0.250 CRC64 data/validation.fmshrc.jsonl.xz 1 1 25.3 MiB 113.2 MiB 0.224 CRC64 data/validation.founding_docs.jsonl.xz 1 1 63.5 KiB 248.8 KiB 0.255 CRC64 data/validation.frcp.jsonl.xz 1 1 58.4 KiB 226.7 KiB 0.257 CRC64 data/validation.fre.jsonl.xz 1 1 117.4 KiB 419.1 KiB 0.280 CRC64 data/validation.ftc_advisory_opinions.jsonl.xz 722 721 4,900.2 KiB 15.1 MiB 0.318 CRC64 data/validation.hhs_alj.jsonl.xz 1 1 10.0 MiB 52.3 MiB 0.191 CRC64 data/validation.ijc.jsonl.xz 161 161 3,791.0 KiB 17.7 MiB 0.209 CRC64 data/validation.irs_legal_advice_memos.jsonl.xz 214 214 1,101.1 KiB 3,411.1 KiB 0.323 CRC64 data/validation.medicaid_policy_guidance.jsonl.xz 1 1 55.8 MiB 257.8 MiB 0.217 CRC64 data/validation.nlrb_decisions.jsonl.xz 1 1 80.0 MiB 603.7 MiB 0.132 CRC64 data/validation.oig.jsonl.xz 1 1 1,826.2 KiB 9,874.6 KiB 0.185 CRC64 data/validation.olc_memos.jsonl.xz 1 1 19.7 MiB 78.7 MiB 0.251 CRC64 data/validation.r_legaldvice.jsonl.xz 584 584 15.3 MiB 63.5 MiB 0.241 CRC64 data/validation.resource_contracts.jsonl.xz 1 1 86.4 MiB 422.5 MiB 0.204 CRC64 data/validation.scotus_docket_entries.jsonl.xz 1 1 23.1 MiB 109.0 MiB 0.212 CRC64 data/validation.scotus_oral.jsonl.xz 3,559 3,559 13.0 MiB 37.7 MiB 0.344 CRC64 data/validation.sec.jsonl.xz 1 1 371.8 MiB 2,678.4 MiB 0.139 CRC64 data/validation.state_code.jsonl.xz 1 1 24.8 MiB 177.4 MiB 0.140 CRC64 data/validation.taxrulings.jsonl.xz 1 1 92.7 KiB 381.6 KiB 0.243 CRC64 data/validation.tos.jsonl.xz 1 1 7,705.6 KiB 35.5 MiB 0.212 CRC64 data/validation.undebates.jsonl.xz 1 1 53.8 MiB 356.3 MiB 0.151 CRC64 data/validation.us_bills.jsonl.xz 1 1 15.2 MiB 117.5 MiB 0.129 CRC64 data/validation.uscode.jsonl.xz 1 1 885.5 MiB 11.2 GiB 0.077 CRC64 data/validation.uspto_oab.jsonl.xz ------------------------------------------------------------------------------- 22,839 22,833 41.0 GiB 291.5 GiB 0.141 CRC64 119 files
每个数据子集都有训练/验证分割,比例为75%/25%。请注意,我们不会对验证集进行任何下游任务的使用,也不会在下游任务中过滤任何数据。请在训练模型前根据需要进行过滤,或者可以使用不同的数据集分割。
我们整理了一个大型的法律和行政数据语料库。这些数据的实用性有两个方面:(1)聚合法律和行政数据源,展现不同的数据过滤规范和法律标准;(2)收集一个可以被未来用于预训练法律领域语言模型的数据集,这是促进公正获取司法资源的关键方向。因此,数据源的策划的目的是:(1)法律分析、知识或理解;(2)论据形成;(3)隐私过滤标准。像代码和法律这样的来源主要用于(1)。笔录和法庭文件主要用于(2)。裁决意见主要用于(1)和(3)。
我们不规范化数据,但我们提供了数据集创建代码和相关URL详细说明。
资源语言的生产者是谁?各种各样的(参见以上来源)。
此数据集可能包含个人和敏感信息。但这些信息之前已经经过相关政府和联邦机构的筛选,权衡了披露这些信息的危害与透明度的好处。如果您遇到特别有害的内容,请向上游源发送版权投诉请求,并在Communities选项卡中通知我们。然后我们将删除该内容。我们不能启用更严格的许可证,因为上游源可能限制使用更严格的许可证。但是,我们要求所有使用此数据的用户尊重上游的许可证和限制。根据CourtListener的标准,我们不允许搜索引擎索引此数据,并请他人也不要开启任何可以轻松索引数据的选项。请不要开启任何允许数据轻松被索引的功能。
我们希望这个数据集能提供更多进行数据工作的机制。如我们在论文中所述,其中的内部变异性可以用于学习上下文隐私规则。如果能开发出稳健的机制,这些规则就可以被广泛应用。这个数据集还可以用于法律语言模型的预训练。正如在“关于基础模型的机会和风险”中所讨论的,法律语言模型可以以多种方式改善司法获取。但是,它们也可以被用于潜在的有害方式。虽然这些模型还没有准备好用于大多数产品环境,并且正在进行重大的研究工作,但我们希望使用此数据的模型创建者,特别是在创建生成模型时,考虑模型的影响,并努力权衡其方法的益处和危害。我们的许可证和许多子许可证也限制商业使用。
这些数据反映了政府和法院的偏见。正如我们的工作中所讨论的,这些偏见可能是显著的,尽管较新的文本可能不那么显式地具有有害性。请参阅上述声明,并负责任地进行任何模型使用。
我们主要关注美国和英语国家的法律来源,但也包括一些欧洲和加拿大的资源。
创作共用署名-非商业性-相同方式分享4.0国际许可证。但单独的数据源可能有其他许可证。详见论文了解详情。一些上游数据源要求禁用索引。因此,请勿以可以被搜索引擎索引的方式转载任何数据。
我们不提供所提供的法律信息的准确性保证。这只是为了研究目的。如果要获得权威和最新的信息,请直接参考提供与您相关的最新法律、法规和规章的管理机构。
Pile of Law遵循数字千年版权法(DMCA)(17 U.S.C. Section 512)中的通知和投诉程序。
如果您认为Pile of Law上的内容侵犯了您的版权,请立即通过发送一条带有以下信息的消息通知其运营方。请在消息中使用“版权”作为主题。如果Pile of Law的操作者对侵权通知做出反应,他们将尽力使用最近提供给Pile of Law的那个人的最新电子邮件地址联系该人。
根据DMCA,您可能会因在侵权通知中提供虚假材料而承担损害赔偿责任。您还必须诚实评估您的内容使用是否属于合理使用(fair use),因为合理使用并不侵权。请参阅17 U.S.C. Section 107和Lenz v. Universal Music Corp.,案件编号:13-16106(第九巡回法院,2015年9月14日)。如果不确定要报告的内容是否侵犯了您的版权,请先咨询律师。
DMCA要求所有的侵权通知必须包括以下所有内容:
Pile of Law将对所有符合DMCA的侵权通知作出回应,包括根据需要或适当的要求删除违规材料或禁用所有与之相关的链接。
所有接收到的侵权通知可能会以完整的形式发布到Lumen数据库(以前称为Chilling Effects Clearinghouse)。
所有包含上述信息的删除请求应发布到Communities选项卡。
此删除通知已经根据网效法院的DMCA删除通知进行了修改。
关于此工作的引文:
@misc{hendersonkrass2022pileoflaw, url = {https://arxiv.org/abs/2207.00220}, author = {Henderson*, Peter and Krass*, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.}, title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset}, publisher = {arXiv}, year = {2022} }
由于此数据集还包括其他几个带有引文的数据源,请参考我们的论文,并在引用相关的其他工作时,除了引用我们自己的工作之外,还要引用其他相关的工作。