在线服务条款多语种分析语料库数据集卡片
数据集摘要
“我们提供了第一个用于多语种在线服务条款(ToS)潜在不公平条款分析的标注语料库。该数据集包含100个合同,来自25个以英语、德语、意大利语和波兰语标注的文件。针对每份合同,都会注明面向消费者的潜在不公平条款,以及九种不公平性类别。”(Drawzeski et al., 2021)
支持的任务和排行榜
该数据集可用于多类多标签文本分类任务,特别是用于ToS中不公平条款的分类。
语言
英语、德语、意大利语和波兰语。
数据集结构
数据实例
文件格式为jsonl,包含三个数据拆分(训练、验证和测试)。
数据字段
该数据集包含以下字段:
- 语言:句子/文档的语言。
- 公司:文档所述的公司。
- 行号:句子在文档中的行号。
- 句子:待分类的句子。
- 不公平程度:句子被赋予的不公平程度(如果适用两个条款,则在此处指定更高的不公平程度)。
使用九个标签对文档进行了注释,代表不同的条款不公平类别。这些布尔类型的标签包括:
- a = 仲裁:"该条款要求或允许各方通过仲裁程序解决争议,然后案件可以提交法院审理。因此,它被认为是一种选择论坛的条款。然而,这样的条款可能指定仲裁应在特定管辖区内进行。被标记为明显不公平的条款是指规定仲裁应该在与消费者居住国不同的州进行,并且不基于法律而是基于裁决员的自行决定。"(Lippi et al., 2019)
- ch = 单方修改:"该条款指定服务提供商修改服务条款和/或服务本身的条件。这样的条款始终被视为潜在的不公平条款。这是因为欧洲法院尚未就此作出判决,尽管《指令》的附件中有几个支持这种资格的例子。"(Lippi et al., 2019)
- cr = 内容删除:"这赋予了提供商修改/删除用户的内容的权利,包括应用内购买,并且有时规定了提供商这样做的条件。与单方终止的情况一样,指示内容删除条件的条款被视为潜在的不公平条款,而规定服务提供商可以全权自行删除内容,并且可以在任何时候以任何或无任何理由删除内容且无需通知或无法检索内容的条款被视为明显不公平。"(Lippi et al., 2019)
- j = 管辖权:"这种类型的条款规定了具体负责争议解决的法院。授予消费者在其居住地提起诉讼权利的管辖权条款被标记为明显公平,而规定任何司法程序都在居住地外(即在不同城市、不同国家)进行的条款被标记为明显不公平。这一评估以欧洲法院的判例为基础,例如Oceano案件编号C-240/98。”(Lippi et al., 2019)
- law = 法律选择:"该条款指定的是适用于合同的法律,也就是在合同产生的争议解决中适用的法律。将适用法律定义为消费者所在国的法律的条款被标记为明显公平[...]"(Lippi et al., 2019)
- ltd = 责任限制:"这个条款规定了只对特定类型的损失承担损害赔偿责任,并对某些情况下的损失进行了限制或排除。明确声明不可排除提供商责任的条款被标记为明显公平。”(Lippi et al., 2019)
- ter = 单方终止:"这个条款赋予提供商中止和/或终止服务和/或合同的权利,有时详细说明了提供商声称有权进行此操作的情况。指定终止原因的单方终止条款被标记为潜在的不公平条款。而规定服务提供商可以随时以任何或无任何理由和/或不通知即可暂停或终止服务的条款被标记为明显不公平。”(Lippi et al., 2019)
- use = 使用契约:"这个条款规定消费者仅通过使用某项服务即受其使用条款约束,甚至不需要标记已阅读和接受的要求。我们总是将这样的条款标记为潜在的不公平条款。之所以做出这样的选择,是因为可以提供关于这些条款是否不公平的充分论证,因为它们导致了各方权利和义务的不平衡,但这种论证尚未获得决定性的权威支持,因为欧洲法院从未评估过这种类型的条款。”(Lippi et al., 2019)
- pinc = 包含隐私:此标签用于识别“消费者仅通过使用服务即表示同意隐私政策的条款。这样的条款始终被视为潜在的不公平条款。”(Drawzeski et al., 2021)
- all_topics = 包含所有适用主题的汇总列
“我们假设每种类型的条款可以被分类为明显公平、潜在不公平或明显不公平。为了标注(不)公平性的不同程度,我们在每个XML标签后附加了一个数字值,其中1表示明显公平,2表示潜在不公平,3表示明显不公平。使用嵌套标签对与多种类型的条款相关的文本段进行了注释。对于涵盖多个段落的条款,我们选择单独标记每个段落,可能具有不同的(不)公平程度。”(Lippi et al., 2019)
数据拆分
原始论文中未提供拆分。
Joel Niklaus通过手动方式创建了拆分。训练拆分包含按字母顺序排列的前20个公司(Booking、Dropbox、Electronic_Arts、Evernote、Facebook、Garmin、Google、Grindr、Linkedin、Mozilla、Pinterest、Quora、Ryanair、Skype、Skyscanner、Snap、Spotify、Terravision、Tinder、Tripadvisor)。验证拆分包含2个公司Tumblr和Uber。测试拆分包含3个公司Weebly、Yelp和Zynga。
对于该数据集有两个可能的任务。
条款主题
通过仅考虑条款主题,我们可以将条款主题与公平程度分类分开。因此,标签集可以减少到只有9个类。该数据集涉及多标签多类句子分类问题。
公平程度
在预测公平程度时,可以删除所有未标记的句子。这会大大减小数据集的大小。该数据集涉及单标签多类句子分类问题。
数据集创建
策划理由
欧盟法规以所有官方语言发布。这种多语言性带来了成本和挑战,例如有限的语言间可解释性。欧盟已经避免了对应消费者合同中应以哪种语言起草的规定,为各个司法管辖区出现不同的方法留下了空间。欧洲的消费者保护机构和非政府组织往往只使用各自的语言进行操作。因此,需要能够处理多种语言的消费者保护技术。现有的数据集可用于自动检测ToS中的不公平条款,而ToS在大多数情况下是用多种语言提供的。(Drawzeski et al., 2021)
源数据
Initial Data Collection and Normalization
“分析的ToS是从Claudette语料库中获取的
Claudette pre-existing corpus
,包括100份英文ToS(Lippi et al., 2019;Ruggeri et al., 2021)。这些条款主要涉及向消费者提供的热门数字服务,包括领先的在线平台(如搜索引擎和社交媒体)。这些ToS的主要起草语言是英语,其他语言版本的ToS的可用性有所不同。为了进行本研究,根据以下三个主要标准选择了最终的25个ToS:a)它们在四种选择语言版本中的可用性;b)能够确定不同版本之间的对应关系,给定它们的发布日期;c)它们的结构相似性(例如,条款数量、章节等)。例如,虽然在德语和意大利语中均找到了与100个ToS中的63个ToS相对应的ToS,但在这63个ToS中,波兰语版本仅找到了42个。在这42个四种语言版本都可用的ToS中,我们根据上述标准的b)和c)选择了最相对应的版本的ToS。然而,并非对所有25个ToS都能实现四种语言的完全匹配。”(Drawzeski et al., 2021)
谁是源语言的创建者?
源语言的创建者很可能是律师。
注释
Annotation process分析 ToS 在 Claudette 项目的背景下自动标注。需要将 Claudette 项目中 ToS 的标注转移到目标语言的相应版本中,因为这些资源和专业知识可能不足。(Drawzeski 等人,2021)因此,下面我们将介绍 Claudette 语料库的注释过程,如 (Lippi 等人,2019) 所述。数据集由50个相关的在线消费者合同组成,即在线平台的 ToS。这些合同是在拥有大量用户、具有全球影响力并成立时间较长的主要参与者中选择的。这些合同通常在内容上非常详细,经常根据服务和适用法律的变化进行更新,并且通常为不同司法管辖区的不同版本提供。针对同一合同的多个版本,我们选择了在线上为欧洲消费者提供的最新版本。通过三名注释员共同在XML中进行标记。在制定标注指南期间,注释员之间进行了大量的互动。在此过程中进行了若干次修订,初始的机器学习原型产生了一些误报和漏报,根据分析得出了一些修正意见。鉴于注释员在这个过程中的大量相互作用,为了评估注释者之间的一致性,还对额外的测试集进行了标记,该测试集由另外10个合同组成,按照最终的指南进行标记。我们还创建了一个包含其他10个经过标注的合同的附加测试集。这些文档由两名独立的注释员进行标注,他们仔细研究了指南。为了定量衡量注释者之间的一致性,对于这个测试集,我们计算了标准的 Cohen's ? 指标...结果为0.871。(Lippi 等人,2019)注释者是谁?
未指定。
个人和敏感信息
[需要更多信息]
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见讨论
德语、意大利语和波兰语的一些 ToS 很可能是从英语直接翻译过来的。Drawzeski 等人(2021)写道:“虽然我们无法全面评估这一点,但从 ToS 的措辞来推断,至少在 25 份 ToS 中有 9 份的德语、意大利语和波兰语文档确实是英语原版的翻译。”
其他已知限制
请注意,此数据集卡中给出的信息是针对由 Joel Niklaus 和 Veton Matoshi 提供的数据集版本。该数据集旨在成为一个更大的基准数据集的一部分。创建一个由来自不同来源的几个其他数据集组成的基准数据集需要进行后处理。因此,与原始数据集相比,包括文件结构在内的结构可能会有很大不同。此外,预计在数据集统计信息方面与相应论文中给出的差异。读者可以查看转换脚本 convert_to_hf_dataset.py,以追溯将原始数据集转换为当前的jsonl格式的步骤。有关原始数据集结构的进一步信息,请参考本数据集卡片中提供的文献参考、原始 Github 存储库和/或网页。
附加信息
数据集策划者
原始数据集策划者和创建者的姓名可在下面的参考文献中找到,位于引用信息部分。Joel Niklaus (Email;
Github
)和 Veton Matoshi (Email;
Github
)进行了额外的更改。
许可信息
cc-by-nc-2.5
引用信息
@inproceedings{drawzeski-etal-2021-corpus,
address = {Punta Cana, Dominican Republic},
author = {Drawzeski, Kasper and Galassi, Andrea and Jablonowska, Agnieszka and Lagioia, Francesca and Lippi, Marco and Micklitz, Hans Wolfgang and Sartor, Giovanni and Tagiuri, Giacomo and Torroni, Paolo},
booktitle = {Proceedings of the Natural Legal Language Processing Workshop 2021},
doi = {10.18653/v1/2021.nllp-1.1},
month = {nov},
pages = {1--8},
publisher = {Association for Computational Linguistics},
title = {{A Corpus for Multilingual Analysis of Online Terms of Service}},
url = {https://aclanthology.org/2021.nllp-1.1},
year = {2021}
}
贡献
感谢
@JoelNiklaus
和
@kapllan
添加了这个数据集。