数据集:

maastrichtlawtech/bsard

语言:

fr

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2108.11792
英文

BSARD 数据集卡

数据集摘要

BSARD v1.0 是用于研究法律条款检索的法语母语语料库。BSARD 包含来自比利时法律的22,600个以上的法定条款和约1,100个由有经验的法学家用相关条款标记的比利时公民提出的法律问题。

支持的任务和排行榜

  • 文档检索:该数据集可用于训练用于Ad-Hoc法律信息检索的模型。IR模型接收以自然语言书写的短用户查询,要求从知识源(如法定条款)中检索相关的法律信息。模型的性能通过其与参考之间的相似性评分来衡量。从法定条款中提取信息的密集检索模型达到了74.8%的召回率(recall@100)。

语言

数据集中的文本为法语,用于比利时瓦隆和布鲁塞尔首都地区。相关的BCP-47代码为fr-BE。

数据集结构

数据实例

典型的数据点包括一个问题,以及额外的类别、子类别和额外描述字段来详细说明问题,并且包括一系列与问题相关的法定条款的文章ID。

BSARD测试集中的一个示例如下:

{
 'id': '724',
 'question': 'La police peut-elle me fouiller pour chercher du cannabis ?',
 'category': 'Justice',
 'subcategory': 'Petite délinquance',
 'extra_description': 'Détenir, acheter et vendre du cannabis',
 'article_ids': '13348'
}

数据字段

  • 在 "questions_fr_train.csv" 和 "questions_fr_test.csv" 中:

    • id:int32类型的特征,对应于问题的唯一ID编号。
    • question:字符串类型的特征,对应于问题。
    • category:字符串类型的特征,对应于问题的一般主题。
    • subcategory:字符串类型的特征,对应于问题的子主题。
    • extra_description:字符串类型的特征,对应于问题的额外分类标签。
    • article_ids:逗号分隔的字符串类型的特征,包含与问题相关的法定条款的文章ID。
  • 在 "articles_fr.csv" 中:

    • id:int32类型的特征,对应于文章的唯一ID编号。
    • article:字符串类型的特征,对应于完整的文章。
    • code:字符串类型的特征,对应于文章所属的法律代码。
    • article_no:字符串类型的特征,对应于代码中的文章编号。
    • description:字符串类型的特征,对应于文章的拼接标题。
    • law_type:字符串类型的特征,其值为"regional"或"national"。

数据拆分

该数据集分为训练集和测试集。每个集合中的问题数量如下:

Train Test
BSARD 886 222

数据集创建

策划理由

该数据集旨在供研究人员使用,用于构建和评估检索与输入的法律问题相关的法律条款的模型。目前,不应将其视为可靠的法律信息来源,因为问题和文章都对应于2021年5月(数据集收集时)比利时法律的过时版本。因此,在这种情况下,建议用户咨询每日更新的官方法律资源(例如比利时官方公报)。

来源数据

初始数据收集和规范化

BSARD的创建分为四个阶段:(i) 编制一个包含比利时法律文章的大型语料库,(ii) 收集具有相关法律文章引用的法律问题,(iii) 精炼这些问题,(iv) 将引用与语料库中相应的文章进行匹配。

语言来源制片人是谁?

本数据集的制片人没有直接联系参与,因此无法获得他们的人口统计信息。问题是由 Droits Quotidiens 收集、匿名化并重新构想的。因此,没有直接关于发言者的年龄、性别分布或社会经济地位的信息可用。然而,预计大多数发言者都是成年人(18岁以上),以法语作为母语,并且居住在瓦隆和布鲁塞尔首都地区。

注释

注释过程

每年, Droits Quotidiens 会收到并收集大约4000封比利时公民询问个人法律问题的电子邮件。实际上,他们的法律澄清过程包括四个步骤。首先,他们确定关于常见法律问题的最常问的问题。然后,他们用自然语言术语定义一个表达该问题的新的匿名化的“模型”问题,尽量与普通人提问的方式接近。接下来,他们搜索比利时法律中有助于回答模型问题的文章,并对其进行引用。

标注者是谁?

总共有6名比利时法学家来自 Droits Quotidiens ,参与了对问题的标注。他们都拥有比利时大学的法学学位,并具有提供法律建议和澄清的多年经验。他们的年龄在30-60岁之间,包括一名男性和五名女性,他们的族裔为白人欧洲人,以法语作为母语,并根据收入水平属于中上阶层。

个人和敏感信息

这些问题代表了不超过265个单词的非正式、异步、经过编辑、书面语言。它们都经过回顾和重新措辞,以中立、匿名和全面的方式进行。法定条款代表了一种强烈的、正式的、书面的语言,可以包含高达39,570个单词。

使用数据的注意事项

数据的社会影响

除了帮助推动与法律问题相关的法规检索技术的发展,基于BSARD的模型还可以改善法律信息检索过程在法律研究领域的效率,从而使研究人员能够更多地投入到研究的思考部分。此外,BSARD可以成为新型开源法律信息搜索工具的起点,使社会弱势纠纷一方从免费的专业辅助服务中受益。

偏见讨论

[需要更多信息]

其他已知限制

首先,文章的语料库仅限于从32个比利时法典中收集的文章,这很显然不能覆盖整个比利时法律,因为缺少来自法令、指令和条例的数千篇文章。在数据集构建过程中,所有对这些未收集文章的引用均被忽略,这导致一些问题最终只剩下部分初始相关文章的情况。这种信息丢失意味着剩余相关文章中包含的答案可能是不完整的,尽管仍然是适当的。

此外,需要注意的是,并非所有法律问题都可以仅通过法规来回答。例如,问题“如果我的租户制造太大的噪音,我可以驱逐他们吗?”可能在法定法律中没有详细的答案来量化允许驱逐的具体噪音阈值。相反,房东可能应更多地依赖判例法,并找到与他们目前情况类似的先例(例如,租户每周举办两次晚上2点的派对)。因此,对于法定条款检索任务,某些问题比其他问题更适合,并且有待确定不太适合的领域。

其他信息

数据集策划者

该数据集是由Antoine Louis在马斯特里赫特大学法律与技术实验室完成的工作中创建的,同时得到了 Droits Quotidiens 法学家的帮助。

许可信息

BSARD在 CC BY-NC-SA 4.0 license 下获得许可。

引用信息

@inproceedings{louis2022statutory,
  title = {A Statutory Article Retrieval Dataset in French},
  author = {Louis, Antoine and Spanakis, Gerasimos},
  booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics},
  month = may,
  year = {2022},
  address = {Dublin, Ireland},
  publisher = {Association for Computational Linguistics},
  url = {},
  doi = {},
  pages = {To appear},
}

贡献

感谢 @antoiloui 添加了这个数据集。