"FairLex" 数据集卡片

数据集摘要

我们提供了一个基准套件，包含四个数据集，用于评估预训练的法律语言模型的公平性，以及用于下游任务的微调技术。我们的基准覆盖了四个司法管辖区（欧洲理事会、美国、瑞士和中国）、五种语言（英语、德语、法语、意大利语和中文）以及五个属性（性别、年龄、国籍/地区、语言和法律领域）之间的公平性。在我们的实验中，我们使用几种群体鲁棒性微调技术评估预训练语言模型，并显示在许多情况下性能群体差异明显，然而，这些技术都不能保证公平性，也无法持续缓解群体差异。此外，我们对结果进行定量和定性分析，突出法律自然语言处理领域中鲁棒性方法发展中的挑战。

为了本研究的目的，我们发布了四个领域特定的BERT模型，这些模型在所研究的数据集（ECtHR、SCOTUS、FSCS、CAIL）的语料库上进行了持续预训练。我们训练了一个具有6个变压器块、384个隐藏单元和12个注意头的小型BERT模型。我们从公共的MiniLMv2（Wang et al., 2021）中获取了所有模型的热启动，使用了RoBERTa（Liu et al., 2019）的简化版本。对于英语数据集（ECtHR、SCOTUS），我们使用的是XLM-R（Conneau et al., 2021）的简化版本用于其它数据集（三语FSCS和中文CAIL）。[ Link to Models ]

支持的任务和排行榜

支持的任务如下：

Dataset	Source	Sub-domain	Language	Task Type	Classes
ECtHR	1236321	ECHR	en	Multi-label classification	10+1
SCOTUS	1237321	US Law	en	Multi-class classification	11
FSCS	1238321	Swiss Law	en, fr , it	Binary classification	2
CAIL	1239321	Chinese Law	zh	Multi-class classification	6

ecthr

欧洲人权法院（ECtHR）审理国家违反欧洲人权公约（ECHR）人权规定的指控。我们使用Chalkidis等人（2021）的数据集，其中包含ECtHR公共数据库中的11,000个案例。每个案例被映射到被违反的ECHR条款（如果有的话）。这是一个多标签文本分类任务。给定案例的事实，目标是预测法院裁定的是否违反了ECHR的条款。案例按时间顺序分为训练集（9,000个，2001-2016年）、开发集（1,000个，2016-2017年）和测试集（1,000个，2017-2019年）。

为了便于研究文本分类器的公平性，我们记录了每个案例的以下属性：（a）被告国家，即据称违反ECHR的欧洲国家。每个案例的被告国家是欧洲理事会47个成员国的子集；为了具有统计支持，我们将被告国家分为两组：中东欧国家一组，其他国家一组，根据EuroVoc词表分类。（b）申请人年龄，根据案例事实提取申请人的出生年份，如果可能的话，并将案例分为年龄组（

作者:

coastalcph

数据集大小:

51.21 KB