数据集:
kor_sae
任务:
文本分类语言:
ko计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
cc-by-sa-4.0韩文结构化论证抽取数据集是一组带有问题-论证和命令-论证对以及它们的问题类型标签和否定性标签。通常情况下,像Alexa或Siri这样的代理会遇到用户没有明确目标的对话。该数据集的目标是在没有明确指示的情况下提取给定话语对的意图论证。这可能会产生一个更强大的能够解析更多非规范语言形式的代理。
数据集中的文本为韩文,相关的BCP-47代码为ko-KR。
一个示例数据实例包含一个问题或命令对及其标签:
{ "intent_pair1": "내일 오후 다섯시 조별과제 일정 추가해줘" "intent_pair2": "내일 오후 다섯시 조별과제 일정 추가하기" "label": 4 }
该语料库包含30,837个示例。
韩文结构化论证抽取数据集的策展目的是帮助训练模型从没有明确目标或用户使用非规范语言形式的话语中提取意图论证。这对于韩文尤其有帮助,因为在英语中,“谁、什么、哪里、什么时候、为什么”通常在句子开头,但在韩语中并不一定如此。因此,对于资源有限的语言,缺乏这些数据可能会成为理解性能的瓶颈。
该语料库取自由 Cho et al. 创建的一个韩文单个话语语料库,用于识别指令/非指令的各种非规范指令。
谁是源语言的生产者?韩语使用者是源语言的生产者。
将话语分类为问题或命令论证,然后根据其意图论证进一步分类。
谁是标注者?标注由三名具备计算语言学背景的韩语本地人完成。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集由Won Ik Cho、Young Ki Moon、Sangwhan Moon、Seok Min Kim和Nam Soo Kim策编。
该数据集使用CC BY-SA-4.0许可。
@article{cho2019machines, title={Machines Getting with the Program: Understanding Intent Arguments of Non-Canonical Directives}, author={Cho, Won Ik and Moon, Young Ki and Moon, Sangwhan and Kim, Seok Min and Kim, Nam Soo}, journal={arXiv preprint arXiv:1912.00342}, year={2019} }
感谢 @stevhliu 添加了这个数据集。