英文

"FairLex" 数据集卡片

数据集摘要

我们提供了一个基准套件,包含四个数据集,用于评估预训练的法律语言模型的公平性,以及用于下游任务的微调技术。我们的基准覆盖了四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个属性(性别、年龄、国籍/地区、语言和法律领域)之间的公平性。在我们的实验中,我们使用几种群体鲁棒性微调技术评估预训练语言模型,并显示在许多情况下性能群体差异明显,然而,这些技术都不能保证公平性,也无法持续缓解群体差异。此外,我们对结果进行定量和定性分析,突出法律自然语言处理领域中鲁棒性方法发展中的挑战。

为了本研究的目的,我们发布了四个领域特定的BERT模型,这些模型在所研究的数据集(ECtHR、SCOTUS、FSCS、CAIL)的语料库上进行了持续预训练。我们训练了一个具有6个变压器块、384个隐藏单元和12个注意头的小型BERT模型。我们从公共的MiniLMv2(Wang et al., 2021)中获取了所有模型的热启动,使用了RoBERTa(Liu et al., 2019)的简化版本。对于英语数据集(ECtHR、SCOTUS),我们使用的是XLM-R(Conneau et al., 2021)的简化版本用于其它数据集(三语FSCS和中文CAIL)。[ Link to Models ]

支持的任务和排行榜

支持的任务如下:

Dataset Source Sub-domain Language Task Type Classes
ECtHR 1236321 ECHR en Multi-label classification 10+1
SCOTUS 1237321 US Law en Multi-class classification 11
FSCS 1238321 Swiss Law en, fr , it Binary classification 2
CAIL 1239321 Chinese Law zh Multi-class classification 6
ecthr

欧洲人权法院(ECtHR)审理国家违反欧洲人权公约(ECHR)人权规定的指控。我们使用Chalkidis等人(2021)的数据集,其中包含ECtHR公共数据库中的11,000个案例。每个案例被映射到被违反的ECHR条款(如果有的话)。这是一个多标签文本分类任务。给定案例的事实,目标是预测法院裁定的是否违反了ECHR的条款。案例按时间顺序分为训练集(9,000个,2001-2016年)、开发集(1,000个,2016-2017年)和测试集(1,000个,2017-2019年)。

为了便于研究文本分类器的公平性,我们记录了每个案例的以下属性:(a)被告国家,即据称违反ECHR的欧洲国家。每个案例的被告国家是欧洲理事会47个成员国的子集;为了具有统计支持,我们将被告国家分为两组:中东欧国家一组,其他国家一组,根据EuroVoc词表分类。(b)申请人年龄,根据案例事实提取申请人的出生年份,如果可能的话,并将案例分为年龄组(