“我们提供了第一个用于多语种在线服务条款(ToS)潜在不公平条款分析的标注语料库。该数据集包含100个合同,来自25个以英语、德语、意大利语和波兰语标注的文件。针对每份合同,都会注明面向消费者的潜在不公平条款,以及九种不公平性类别。”(Drawzeski et al., 2021)
支持的任务和排行榜
该数据集可用于多类多标签文本分类任务,特别是用于ToS中不公平条款的分类。
语言
英语、德语、意大利语和波兰语。
数据集结构
数据实例
文件格式为jsonl,包含三个数据拆分(训练、验证和测试)。
数据字段
该数据集包含以下字段:
语言:句子/文档的语言。
公司:文档所述的公司。
行号:句子在文档中的行号。
句子:待分类的句子。
不公平程度:句子被赋予的不公平程度(如果适用两个条款,则在此处指定更高的不公平程度)。
使用九个标签对文档进行了注释,代表不同的条款不公平类别。这些布尔类型的标签包括:
a = 仲裁:"该条款要求或允许各方通过仲裁程序解决争议,然后案件可以提交法院审理。因此,它被认为是一种选择论坛的条款。然而,这样的条款可能指定仲裁应在特定管辖区内进行。被标记为明显不公平的条款是指规定仲裁应该在与消费者居住国不同的州进行,并且不基于法律而是基于裁决员的自行决定。"(Lippi et al., 2019)
ch = 单方修改:"该条款指定服务提供商修改服务条款和/或服务本身的条件。这样的条款始终被视为潜在的不公平条款。这是因为欧洲法院尚未就此作出判决,尽管《指令》的附件中有几个支持这种资格的例子。"(Lippi et al., 2019)
cr = 内容删除:"这赋予了提供商修改/删除用户的内容的权利,包括应用内购买,并且有时规定了提供商这样做的条件。与单方终止的情况一样,指示内容删除条件的条款被视为潜在的不公平条款,而规定服务提供商可以全权自行删除内容,并且可以在任何时候以任何或无任何理由删除内容且无需通知或无法检索内容的条款被视为明显不公平。"(Lippi et al., 2019)
j = 管辖权:"这种类型的条款规定了具体负责争议解决的法院。授予消费者在其居住地提起诉讼权利的管辖权条款被标记为明显公平,而规定任何司法程序都在居住地外(即在不同城市、不同国家)进行的条款被标记为明显不公平。这一评估以欧洲法院的判例为基础,例如Oceano案件编号C-240/98。”(Lippi et al., 2019)
law = 法律选择:"该条款指定的是适用于合同的法律,也就是在合同产生的争议解决中适用的法律。将适用法律定义为消费者所在国的法律的条款被标记为明显公平[...]"(Lippi et al., 2019)
ltd = 责任限制:"这个条款规定了只对特定类型的损失承担损害赔偿责任,并对某些情况下的损失进行了限制或排除。明确声明不可排除提供商责任的条款被标记为明显公平。”(Lippi et al., 2019)
ter = 单方终止:"这个条款赋予提供商中止和/或终止服务和/或合同的权利,有时详细说明了提供商声称有权进行此操作的情况。指定终止原因的单方终止条款被标记为潜在的不公平条款。而规定服务提供商可以随时以任何或无任何理由和/或不通知即可暂停或终止服务的条款被标记为明显不公平。”(Lippi et al., 2019)
use = 使用契约:"这个条款规定消费者仅通过使用某项服务即受其使用条款约束,甚至不需要标记已阅读和接受的要求。我们总是将这样的条款标记为潜在的不公平条款。之所以做出这样的选择,是因为可以提供关于这些条款是否不公平的充分论证,因为它们导致了各方权利和义务的不平衡,但这种论证尚未获得决定性的权威支持,因为欧洲法院从未评估过这种类型的条款。”(Lippi et al., 2019)
pinc = 包含隐私:此标签用于识别“消费者仅通过使用服务即表示同意隐私政策的条款。这样的条款始终被视为潜在的不公平条款。”(Drawzeski et al., 2021)
all_topics = 包含所有适用主题的汇总列
“我们假设每种类型的条款可以被分类为明显公平、潜在不公平或明显不公平。为了标注(不)公平性的不同程度,我们在每个XML标签后附加了一个数字值,其中1表示明显公平,2表示潜在不公平,3表示明显不公平。使用嵌套标签对与多种类型的条款相关的文本段进行了注释。对于涵盖多个段落的条款,我们选择单独标记每个段落,可能具有不同的(不)公平程度。”(Lippi et al., 2019)
数据拆分
原始论文中未提供拆分。
Joel Niklaus通过手动方式创建了拆分。训练拆分包含按字母顺序排列的前20个公司(Booking、Dropbox、Electronic_Arts、Evernote、Facebook、Garmin、Google、Grindr、Linkedin、Mozilla、Pinterest、Quora、Ryanair、Skype、Skyscanner、Snap、Spotify、Terravision、Tinder、Tripadvisor)。验证拆分包含2个公司Tumblr和Uber。测试拆分包含3个公司Weebly、Yelp和Zynga。
欧盟法规以所有官方语言发布。这种多语言性带来了成本和挑战,例如有限的语言间可解释性。欧盟已经避免了对应消费者合同中应以哪种语言起草的规定,为各个司法管辖区出现不同的方法留下了空间。欧洲的消费者保护机构和非政府组织往往只使用各自的语言进行操作。因此,需要能够处理多种语言的消费者保护技术。现有的数据集可用于自动检测ToS中的不公平条款,而ToS在大多数情况下是用多种语言提供的。(Drawzeski et al., 2021)
源数据
Initial Data Collection and Normalization
“分析的ToS是从Claudette语料库中获取的
Claudette pre-existing corpus
,包括100份英文ToS(Lippi et al., 2019;Ruggeri et al., 2021)。这些条款主要涉及向消费者提供的热门数字服务,包括领先的在线平台(如搜索引擎和社交媒体)。这些ToS的主要起草语言是英语,其他语言版本的ToS的可用性有所不同。为了进行本研究,根据以下三个主要标准选择了最终的25个ToS:a)它们在四种选择语言版本中的可用性;b)能够确定不同版本之间的对应关系,给定它们的发布日期;c)它们的结构相似性(例如,条款数量、章节等)。例如,虽然在德语和意大利语中均找到了与100个ToS中的63个ToS相对应的ToS,但在这63个ToS中,波兰语版本仅找到了42个。在这42个四种语言版本都可用的ToS中,我们根据上述标准的b)和c)选择了最相对应的版本的ToS。然而,并非对所有25个ToS都能实现四种语言的完全匹配。”(Drawzeski et al., 2021)
@inproceedings{drawzeski-etal-2021-corpus,
address = {Punta Cana, Dominican Republic},
author = {Drawzeski, Kasper and Galassi, Andrea and Jablonowska, Agnieszka and Lagioia, Francesca and Lippi, Marco and Micklitz, Hans Wolfgang and Sartor, Giovanni and Tagiuri, Giacomo and Torroni, Paolo},
booktitle = {Proceedings of the Natural Legal Language Processing Workshop 2021},
doi = {10.18653/v1/2021.nllp-1.1},
month = {nov},
pages = {1--8},
publisher = {Association forComputational Linguistics},
title = {{A Corpus forMultilingual Analysis of Online Terms of Service}},
url = {https://aclanthology.org/2021.nllp-1.1},
year = {2021}
}