数据集:

kor_sae

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

韩文结构化论证抽取数据集卡片

数据集摘要

韩文结构化论证抽取数据集是一组带有问题-论证和命令-论证对以及它们的问题类型标签和否定性标签。通常情况下,像Alexa或Siri这样的代理会遇到用户没有明确目标的对话。该数据集的目标是在没有明确指示的情况下提取给定话语对的意图论证。这可能会产生一个更强大的能够解析更多非规范语言形式的代理。

支持的任务和排行榜

  • 意图分类:可以使用类似 BERT 的Transformer对数据集进行训练,以分类韩文中的意图论证或问题/命令对,并可以通过其BERT得分来衡量性能。

语言

数据集中的文本为韩文,相关的BCP-47代码为ko-KR。

数据集结构

数据实例

一个示例数据实例包含一个问题或命令对及其标签:

{
  "intent_pair1": "내일 오후 다섯시 조별과제 일정 추가해줘"
  "intent_pair2": "내일 오후 다섯시 조별과제 일정 추가하기"
  "label": 4
}

数据字段

  • intent_pair1:问题/命令对
  • intent_pair2:相应的问题/命令对
  • label:确定对的意图论证,可以是"是/否"(0),"替代"(1),"wh-问题"(2),"禁止"(3),"要求"(4)和"强烈要求"(5)之一

数据拆分

该语料库包含30,837个示例。

数据集创建

策展理由

韩文结构化论证抽取数据集的策展目的是帮助训练模型从没有明确目标或用户使用非规范语言形式的话语中提取意图论证。这对于韩文尤其有帮助,因为在英语中,“谁、什么、哪里、什么时候、为什么”通常在句子开头,但在韩语中并不一定如此。因此,对于资源有限的语言,缺乏这些数据可能会成为理解性能的瓶颈。

来源数据

初始数据收集和规范化

该语料库取自由 Cho et al. 创建的一个韩文单个话语语料库,用于识别指令/非指令的各种非规范指令。

谁是源语言的生产者?

韩语使用者是源语言的生产者。

注释

注释过程

将话语分类为问题或命令论证,然后根据其意图论证进一步分类。

谁是标注者?

标注由三名具备计算语言学背景的韩语本地人完成。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

该数据集由Won Ik Cho、Young Ki Moon、Sangwhan Moon、Seok Min Kim和Nam Soo Kim策编。

许可信息

该数据集使用CC BY-SA-4.0许可。

引用信息

@article{cho2019machines,
  title={Machines Getting with the Program: Understanding Intent Arguments of Non-Canonical Directives},
  author={Cho, Won Ik and Moon, Young Ki and Moon, Sangwhan and Kim, Seok Min and Kim, Nam Soo},
  journal={arXiv preprint arXiv:1912.00342},
  year={2019}
}

贡献

感谢 @stevhliu 添加了这个数据集。