数据集:

jhu-clsp/SARA

语言:

en

大小:

n<1K
英文

用于税法推理和问题解答的数据集数据卡片

注意:这是针对SARA v1的数据版,对于SARA v2,请参见 https://nlp.jhu.edu/law/ (将很快在Huggingface上发布!)

数据集概述

如果您使用此数据集,请引用我们的工作:

@inproceedings{Holzenberger2020ADF,
  title={A Dataset for Statutory Reasoning in Tax Law Entailment and Question Answering},
  author={Nils Holzenberger and Andrew Blair-Stanek and Benjamin Van Durme},
  booktitle={NLLP@KDD},
  year={2020}
}

支持的任务和排行榜

有两个任务:问题回答和自然语言推理,都有训练集和测试集。没有官方排行榜。

语言

英语

数据集结构

数据实例

以下是一个实例示例:

{
    "id": "s151_a_neg",
    "text": "Alice's income in 2015 is $100000. She gets one exemption of $2000 for the year 2015 under section 151(c). Alice is not married.",
    "question": "Alice's total exemption for 2015 under section 151(a) is equal to $6000",
    "answer": "Contradiction",
    "facts": ":- discontiguous s151_c\/4.\n:- [statutes\/prolog\/init].\nincome_(alice_makes_money).\nagent_(alice_makes_money,alice).\nstart_(alice_makes_money,\"2015-01-01\").\nend_(alice_makes_money,\"2015-12-31\").\namount_(alice_makes_money,100000).\ns151_c(alice,_,2000,2015).",
    "test": ":- \\+ s151_a(alice,6000,2015)."
}

数据字段

  • id:实例的唯一ID,指示案件编号和相关法规(如果适用)。
  • text:法律案例的背景详情
  • question:实例的问题(或假设)
  • answer:问题的答案或NLI判断(推理/反驳)
  • facts:案件的相关事实,以Prolog格式表示
  • test:相关的执行代码,以Prolog格式表示

数据拆分

数据拆分可以通过以下方式访问:

from datasets import load_dataset
qa_test = load_dataset("jhu-clsp/SARA", "qa", split="test")
qa_train = load_dataset("jhu-clsp/SARA", "qa", split="train")
nli_test = load_dataset("jhu-clsp/SARA", "nli", split="test")
nli_train = load_dataset("jhu-clsp/SARA", "nli", split="train")

数据集创建

详细信息请参阅论文: https://ceur-ws.org/Vol-2645/paper5.pdf