数据集:
maastrichtlawtech/bsard
任务:
文本检索子任务:
document-retrieval语言:
fr计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2108.11792许可:
cc-by-nc-sa-4.0BSARD v1.0 是用于研究法律条款检索的法语母语语料库。BSARD 包含来自比利时法律的22,600个以上的法定条款和约1,100个由有经验的法学家用相关条款标记的比利时公民提出的法律问题。
数据集中的文本为法语,用于比利时瓦隆和布鲁塞尔首都地区。相关的BCP-47代码为fr-BE。
典型的数据点包括一个问题,以及额外的类别、子类别和额外描述字段来详细说明问题,并且包括一系列与问题相关的法定条款的文章ID。
BSARD测试集中的一个示例如下:
{ 'id': '724', 'question': 'La police peut-elle me fouiller pour chercher du cannabis ?', 'category': 'Justice', 'subcategory': 'Petite délinquance', 'extra_description': 'Détenir, acheter et vendre du cannabis', 'article_ids': '13348' }
该数据集分为训练集和测试集。每个集合中的问题数量如下:
Train | Test | |
---|---|---|
BSARD | 886 | 222 |
该数据集旨在供研究人员使用,用于构建和评估检索与输入的法律问题相关的法律条款的模型。目前,不应将其视为可靠的法律信息来源,因为问题和文章都对应于2021年5月(数据集收集时)比利时法律的过时版本。因此,在这种情况下,建议用户咨询每日更新的官方法律资源(例如比利时官方公报)。
BSARD的创建分为四个阶段:(i) 编制一个包含比利时法律文章的大型语料库,(ii) 收集具有相关法律文章引用的法律问题,(iii) 精炼这些问题,(iv) 将引用与语料库中相应的文章进行匹配。
语言来源制片人是谁?本数据集的制片人没有直接联系参与,因此无法获得他们的人口统计信息。问题是由 Droits Quotidiens 收集、匿名化并重新构想的。因此,没有直接关于发言者的年龄、性别分布或社会经济地位的信息可用。然而,预计大多数发言者都是成年人(18岁以上),以法语作为母语,并且居住在瓦隆和布鲁塞尔首都地区。
每年, Droits Quotidiens 会收到并收集大约4000封比利时公民询问个人法律问题的电子邮件。实际上,他们的法律澄清过程包括四个步骤。首先,他们确定关于常见法律问题的最常问的问题。然后,他们用自然语言术语定义一个表达该问题的新的匿名化的“模型”问题,尽量与普通人提问的方式接近。接下来,他们搜索比利时法律中有助于回答模型问题的文章,并对其进行引用。
标注者是谁?总共有6名比利时法学家来自 Droits Quotidiens ,参与了对问题的标注。他们都拥有比利时大学的法学学位,并具有提供法律建议和澄清的多年经验。他们的年龄在30-60岁之间,包括一名男性和五名女性,他们的族裔为白人欧洲人,以法语作为母语,并根据收入水平属于中上阶层。
这些问题代表了不超过265个单词的非正式、异步、经过编辑、书面语言。它们都经过回顾和重新措辞,以中立、匿名和全面的方式进行。法定条款代表了一种强烈的、正式的、书面的语言,可以包含高达39,570个单词。
除了帮助推动与法律问题相关的法规检索技术的发展,基于BSARD的模型还可以改善法律信息检索过程在法律研究领域的效率,从而使研究人员能够更多地投入到研究的思考部分。此外,BSARD可以成为新型开源法律信息搜索工具的起点,使社会弱势纠纷一方从免费的专业辅助服务中受益。
[需要更多信息]
首先,文章的语料库仅限于从32个比利时法典中收集的文章,这很显然不能覆盖整个比利时法律,因为缺少来自法令、指令和条例的数千篇文章。在数据集构建过程中,所有对这些未收集文章的引用均被忽略,这导致一些问题最终只剩下部分初始相关文章的情况。这种信息丢失意味着剩余相关文章中包含的答案可能是不完整的,尽管仍然是适当的。
此外,需要注意的是,并非所有法律问题都可以仅通过法规来回答。例如,问题“如果我的租户制造太大的噪音,我可以驱逐他们吗?”可能在法定法律中没有详细的答案来量化允许驱逐的具体噪音阈值。相反,房东可能应更多地依赖判例法,并找到与他们目前情况类似的先例(例如,租户每周举办两次晚上2点的派对)。因此,对于法定条款检索任务,某些问题比其他问题更适合,并且有待确定不太适合的领域。
该数据集是由Antoine Louis在马斯特里赫特大学法律与技术实验室完成的工作中创建的,同时得到了 Droits Quotidiens 法学家的帮助。
BSARD在 CC BY-NC-SA 4.0 license 下获得许可。
@inproceedings{louis2022statutory, title = {A Statutory Article Retrieval Dataset in French}, author = {Louis, Antoine and Spanakis, Gerasimos}, booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics}, month = may, year = {2022}, address = {Dublin, Ireland}, publisher = {Association for Computational Linguistics}, url = {}, doi = {}, pages = {To appear}, }
感谢 @antoiloui 添加了这个数据集。