数据集:

joonhok-exo-ai/korean_law_open_data_precedents

许可:

openrail

其他:

legal

大小:

10K<n<100K

语言:

ko
英文

名称为“数据集名称”的数据集卡片

数据集摘要

这是 법제처 국가법령 공동활용 센터 提供的完整判例数据集。

数据集结构

数据实例

个体数据的结构如下所示。

本数据集的结构基本上遵循了判例文本查询API的输出字段,但是省略了“法院类型代码”和“案件类型代码”字段,而“判决类型”字段在实际响应中为“裁决类型”,因此根据实际响应的值使用了正确的字段。最后,“判例内容”字段被替换为“全文”。

{
 '판례정보일련번호': 101924
 '사건명': '손해배상'
 '사건번호': '85다카1594'
 '선고일자': 19860722,
 '선고': '선고'
 '법원명': '대법원'
 '사건종류명': '민사'
 '판결유형': '판결'
 '판시사항': '가. 미성년자가 부모의 개호를 받을 수 있는 경우, 손해로서의 개호인 비용 / 나. 호프만식계산법에 의한 일실이익 산정의 적부 다. 연별 호프만식계산법에 의하여 중간이자를 공제하는 경우, 단리연금 현가율이 20을 넘는 경우의 일실이익 산정방법'
 '판결요지': '가. 신체의 부자유로 인하여 개호인의 조력을 받을 필요가 있는 경우에는 비록 피해자가 미성년자이고 그의 부모가 개호를 할 수 있는 형편에 있다 하더라도 반드시 그 부모의 개호를 받아야 한다고 단정할 수 없음은 물론, 가사 그 부모의 개호를 받게 된다고 하더라도 이로 인하여 피해자가 입는 손해는 특별한 사정이 없는 한 통상의 개호인 비용 전액이다. 나. 호프만식계산법에 의하여 중간이자를 공제하여 장래의 일실이익의 현가를 산정하는 것은 위법한 것이 아니다. 다. 연별 호프만식계산법에 의하여 중간이자를 공제하는 경우에 단리연금현가율이 20을 넘는 경우에는 그 단리연금현가율을 그대로 적용하여 그 현가를 산정하게 되면 현가로 받게 되는 금액의 이자가 매월 입게 되는 손해액보다 많게 되어 손해액보다 더 많은 금원을 배상하게 되는 불합리한 결과를 가져오게 되므로 그 단리연금현가율이 결과적으로 20을 넘는 경우에 있어서는 그 수치표상의 단리연금현가율이 얼마인지를 불문하고 모두 20을 적용 계산함으로써 피해자가 과잉배상을 받는 일이 없도록 하여야 한다.'
 '참조조문': '가.나.다. 민법 제763조'
 '참조판례': '나. 대법원 1981.9.22 선고 81다588 판결, 1985.10.22 선고 85다카819 판결 / 다. 대법원 1985.10.22 선고 85다카819 판결, 1986.3.25 선고 85다카2375 판결'
 '판결유형': '판결'
 '전문': '【원고, 피상고인】 (...이하 생략...)'
}

数据字段

其他字段不需要特殊说明,但是“判决日期”字段的值不是字符串而是数字。此外,一些数据的“判决日期”字段的值中省略了月份和日期信息,仅留下了年份,因此长度为4位的情况也存在。

此外,某些字段(如“案件名称”)可能没有值,请注意。

数据集创建

理由

这些判例数据可通过共享API获得,但是:

  • 通过API的方式循环遍历所有数据比较困难
  • 每次都需要解析和预处理API响应数据
  • 为了预处理部分API响应数据中的错误
  • 我们创建了这个数据集。

    数据来源

    初始数据收集和归一化

    这个数据集使用了国家法律共享中心的“判例目录查询API”和“判例文本查询API”来收集数据。

    首先,我们调用了判例目录查询API以收集判例信息编号,然后使用每个编号调用判例文本查询API以收集判例数据。

    在查询判例文本时,可以通过XML和HTML两种格式进行请求,为了验证和清理数据的完整性,我们对所有数据都以这两种格式进行了请求,并比较了两个响应数据。我们发现一些数据在不同的请求格式下具有不同的值。

    例如,对判例信息编号为152179的判例数据进行XML和HTML格式的请求时,“全文”中的“【原审判决】”部分如下:

    当以XML格式请求时:

    "1. 서울중앙지방법원 2009. 4. 3. 선고 2009고합167 판결(이하 ‘제1원심판결’이라고 한다) / 2. 서울중앙지방법원 2009. 5. 8. 선고 2009고합416 판결(이하 ‘제2원심판결’이라고 한다)"
    

    当以HTML格式请求时:

    서울중앙지방법원 2009. 4. 3. 선고 2009고합167 판결 
    

    有这样的请求格式差异造成的数据有几十个,我们在这个数据集中使用了包含更多信息的数据(在上述示例中是XML格式的数据)。

    此外,两种格式中都存在一些错误,例如某些数据中的超链接格式已损坏,匿名格式错误等,我们手动修正了这些数据。

    最后,一些数据包含图像,但在这个数据集中我们仅包含了文本部分,跳过了图像。

    手动修正的文本数据列表:212537, 188351, 188019, 200567 包含图像的数据列表:184135, 182916, 186027, 185375, 184151, 184597, 186156, 184655, 185123, 198440, 197577

    附加信息

    数据集策展人

    Kim Joonho ( 링크드인 ): 这个数据集是我自己创建的,因为我为制作人工智能法律服务而有了这方面的需求。

    贡献

    如果您发现数据中有任何错误,请联系 joonhok@smartfitnow.com 进行确认和反馈。