英文

数据集名称的数据集卡片

数据集摘要

该数据集代表以色列最高法院的2022年快照,包含丰富的元数据支持的公开判决和决定。该5.31GB的数据集包含751,194个文档。总体上,该数据集包含2.68GB的文本。可以使用数据集软件包加载该数据集:

import datasets
data = datasets.load_dataset('LevMuchnik/SupremeCourtOfIsrael')

支持的任务和排行榜

[需要更多信息]

语言

数据库中的绝大多数文档都是希伯来语。少量文档为英文。

数据集结构

该数据集是一个json行文件,每一行对应一个文档,包含文档标识、文本和元数据。

数据实例

[需要更多信息]

数据字段

该文件包含以下字段:

  • case_id - 案件的运行编号
  • download_time - 文档下载时间(日期时间)
  • number_of_case_documents - 当前案件中的文档数量
  • file_name - 文档的完整文件名,包括相对路径
  • Id - 文档标识
  • CaseId - 案件标识
  • VerdictDt - 文档日期(日期时间)
  • CreatedDate - 文档插入最高法院数据库的日期
  • CaseNum - 案件编号
  • CaseDesc - 唯一案件标识符。该标识符用于在以色列法律系统内引用案件
  • Pages - 原始文档中的页数
  • Path - 文档的相对路径
  • CaseName - 案件的正式名称
  • FileName - 文档文件名,不包括路径
  • DocName - 文档文件名,不包括路径
  • Year - 文档创建年份
  • TypeCode - 文档类型的枚举(参见下面的Type字段)
  • Type - 文档类型
    • פסק-דין 84339
    • החלטה 663099
    • צו ביניים 22
    • פסקי דין באנגלית 310
    • צו על תנאי 200
    • צו 2606
    • פד"י 302
    • תקצירים 316
  • Technical - 文档是否为技术文档的布尔指示符
  • CodeVolume - ?
  • document_hash - 文档名称的258位哈希标签。用于在内部唯一标识文档
  • text - 文档的文本。多个换行符和其他文档格式元素(段落、列表等)保留
  • html_title - 从HTML中提取的文档标题
  • VerdictsDt - 判决日期
  • meta_case_nm - 正式案件名称
  • meta_sec_appeal - 整数或空
  • meta_side_ty - 案件类型,字符串列表
  • meta_verdict_file_nm - 判决文件名
  • meta_judge - 案件法官姓名列表
  • meta_mador_nm - 法院实例名称(例如בג"ץ)
  • meta_side_nm - 案件各方,字符串列表
  • meta_verdict_dt - 判决日期
  • meta_case_dt - 案件日期
  • meta_verdict_nbr -
  • meta_ProgId - 创建文档所使用的软件的名称(空、Word等)
  • meta_is_technical - 文档是否为技术文档,{'false','true'}
  • meta_judge_nm_last - 法官姓氏(字符串列表)
  • meta_case_nbr - 案件正式编号(与CaseDesc相同)
  • meta_verdict_ty - 决定类型(与Type相同)
  • meta_lawyer_nm - 律师姓名列表,字符串列表或空
  • meta_judge_nm_first - 法官名字列表,字符串列表
  • meta_verdict_pages - 文件案件数
  • meta_inyan_nm - 法庭בג"ץ
  • meta_court_nm - 法院(例如בית המשפט העליון)

数据拆分

整个数据集被标记为“train”。

数据集创建

2023-04-22

策划理由

[需要更多信息]

来源数据

https://supreme.court.gov.il/

初始数据收集和规范化

数据是通过爬取以色列最高法院网站收集而来的。

谁是源语言生成者?

[需要更多信息]

注释

注释处理

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

此数据集中的数据属于公共数据。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Prof. Lev Muchnik, Hebrew University of JerusalemDr. Inbal Yahav Shenberger, Tel Aviv University

许可信息

[需要更多信息]

引用信息

Lev Muchnik, Inbal Yahav, Ariel Nevo, Avichay Chriqui, Tim Shektov, 2023, The Israeli Supreme Court Dataset

贡献

作者们要感谢以色列创新局(Grant #78560和#78561)对创建此数据集的支持。