数据集名称的数据集卡片
数据集摘要
该数据集代表以色列最高法院的2022年快照,包含丰富的元数据支持的公开判决和决定。该5.31GB的数据集包含751,194个文档。总体上,该数据集包含2.68GB的文本。可以使用数据集软件包加载该数据集:
import datasets
data = datasets.load_dataset('LevMuchnik/SupremeCourtOfIsrael')
支持的任务和排行榜
[需要更多信息]
语言
数据库中的绝大多数文档都是希伯来语。少量文档为英文。
数据集结构
该数据集是一个json行文件,每一行对应一个文档,包含文档标识、文本和元数据。
数据实例
[需要更多信息]
数据字段
该文件包含以下字段:
- case_id - 案件的运行编号
- download_time - 文档下载时间(日期时间)
- number_of_case_documents - 当前案件中的文档数量
- file_name - 文档的完整文件名,包括相对路径
- Id - 文档标识
- CaseId - 案件标识
- VerdictDt - 文档日期(日期时间)
- CreatedDate - 文档插入最高法院数据库的日期
- CaseNum - 案件编号
- CaseDesc - 唯一案件标识符。该标识符用于在以色列法律系统内引用案件
- Pages - 原始文档中的页数
- Path - 文档的相对路径
- CaseName - 案件的正式名称
- FileName - 文档文件名,不包括路径
- DocName - 文档文件名,不包括路径
- Year - 文档创建年份
- TypeCode - 文档类型的枚举(参见下面的Type字段)
- Type - 文档类型
- פסק-דין 84339
- החלטה 663099
- צו ביניים 22
- פסקי דין באנגלית 310
- צו על תנאי 200
- צו 2606
- פד"י 302
- תקצירים 316
- Technical - 文档是否为技术文档的布尔指示符
- CodeVolume - ?
- document_hash - 文档名称的258位哈希标签。用于在内部唯一标识文档
- text - 文档的文本。多个换行符和其他文档格式元素(段落、列表等)保留
- html_title - 从HTML中提取的文档标题
- VerdictsDt - 判决日期
- meta_case_nm - 正式案件名称
- meta_sec_appeal - 整数或空
- meta_side_ty - 案件类型,字符串列表
- meta_verdict_file_nm - 判决文件名
- meta_judge - 案件法官姓名列表
- meta_mador_nm - 法院实例名称(例如בג"ץ)
- meta_side_nm - 案件各方,字符串列表
- meta_verdict_dt - 判决日期
- meta_case_dt - 案件日期
- meta_verdict_nbr -
- meta_ProgId - 创建文档所使用的软件的名称(空、Word等)
- meta_is_technical - 文档是否为技术文档,{'false','true'}
- meta_judge_nm_last - 法官姓氏(字符串列表)
- meta_case_nbr - 案件正式编号(与CaseDesc相同)
- meta_verdict_ty - 决定类型(与Type相同)
- meta_lawyer_nm - 律师姓名列表,字符串列表或空
- meta_judge_nm_first - 法官名字列表,字符串列表
- meta_verdict_pages - 文件案件数
- meta_inyan_nm - 法庭בג"ץ
- meta_court_nm - 法院(例如בית המשפט העליון)
数据拆分
整个数据集被标记为“train”。
数据集创建
2023-04-22
策划理由
[需要更多信息]
来源数据
https://supreme.court.gov.il/
初始数据收集和规范化
数据是通过爬取以色列最高法院网站收集而来的。
谁是源语言生成者?
[需要更多信息]
注释
注释处理
[需要更多信息]
谁是注释者?
[需要更多信息]
个人和敏感信息
此数据集中的数据属于公共数据。
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见讨论
[需要更多信息]
其他已知限制
[需要更多信息]
其他信息
数据集策划者
Prof. Lev Muchnik, Hebrew University of JerusalemDr. Inbal Yahav Shenberger, Tel Aviv University
许可信息
[需要更多信息]
引用信息
Lev Muchnik, Inbal Yahav, Ariel Nevo, Avichay Chriqui, Tim Shektov, 2023, The Israeli Supreme Court Dataset
贡献
作者们要感谢以色列创新局(Grant #78560和#78561)对创建此数据集的支持。