数据集:
coastalcph/fairlex
我们提供了一个基准套件,包含四个数据集,用于评估预训练的法律语言模型的公平性,以及用于下游任务的微调技术。我们的基准覆盖了四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个属性(性别、年龄、国籍/地区、语言和法律领域)之间的公平性。在我们的实验中,我们使用几种群体鲁棒性微调技术评估预训练语言模型,并显示在许多情况下性能群体差异明显,然而,这些技术都不能保证公平性,也无法持续缓解群体差异。此外,我们对结果进行定量和定性分析,突出法律自然语言处理领域中鲁棒性方法发展中的挑战。
为了本研究的目的,我们发布了四个领域特定的BERT模型,这些模型在所研究的数据集(ECtHR、SCOTUS、FSCS、CAIL)的语料库上进行了持续预训练。我们训练了一个具有6个变压器块、384个隐藏单元和12个注意头的小型BERT模型。我们从公共的MiniLMv2(Wang et al., 2021)中获取了所有模型的热启动,使用了RoBERTa(Liu et al., 2019)的简化版本。对于英语数据集(ECtHR、SCOTUS),我们使用的是XLM-R(Conneau et al., 2021)的简化版本用于其它数据集(三语FSCS和中文CAIL)。[ Link to Models ]
支持的任务如下:
Dataset | Source | Sub-domain | Language | Task Type | Classes |
ECtHR | 1236321 | ECHR | en | Multi-label classification | 10+1 |
SCOTUS | 1237321 | US Law | en | Multi-class classification | 11 |
FSCS | 1238321 | Swiss Law | en, fr , it | Binary classification | 2 |
CAIL | 1239321 | Chinese Law | zh | Multi-class classification | 6 |
欧洲人权法院(ECtHR)审理国家违反欧洲人权公约(ECHR)人权规定的指控。我们使用Chalkidis等人(2021)的数据集,其中包含ECtHR公共数据库中的11,000个案例。每个案例被映射到被违反的ECHR条款(如果有的话)。这是一个多标签文本分类任务。给定案例的事实,目标是预测法院裁定的是否违反了ECHR的条款。案例按时间顺序分为训练集(9,000个,2001-2016年)、开发集(1,000个,2016-2017年)和测试集(1,000个,2017-2019年)。
为了便于研究文本分类器的公平性,我们记录了每个案例的以下属性:(a)被告国家,即据称违反ECHR的欧洲国家。每个案例的被告国家是欧洲理事会47个成员国的子集;为了具有统计支持,我们将被告国家分为两组:中东欧国家一组,其他国家一组,根据EuroVoc词表分类。(b)申请人年龄,根据案例事实提取申请人的出生年份,如果可能的话,并将案例分为年龄组(