数据集:

kor_3i4k

预印本库:

arxiv:1811.04231

许可:

cc-by-4.0

源数据集:

original

语言创建人:

expert-generated

批注创建人:

expert-generated

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K
英文

3i4K数据集的数据卡

数据集摘要

3i4K数据集是一个包含常用韩语单词(由首尔国立大学语音语言处理实验室提供的语料库)和手工创建的包含短语音的问题/命令的集合。其目标是根据其转录识别口述话语的说话者意图,有时还需要使用辅助声学特征。分类系统决定话语是片段、陈述、疑问、命令、修辞疑问句、修辞命令句还是依赖语调的话语。这一点非常重要,因为在韩语等后置语序的语言中,语调的程度在识别说话者意图方面发挥着重要作用。

支持的任务和排行榜

  • intent-classification : 可以使用CNN或BiLISTM-Att对数据集进行训练,以识别韩语口述话语的意图,性能可以通过F1分数来衡量。

语言

数据集中的文本为韩语,相关的BCP-47代码为ko-KR。

数据集结构

数据实例

一个示例数据实例包含一个短语音及其标签:

{
  "label": 3,
  "text": "선수잖아 이 케이스 저 케이스 많을 거 아냐 선배라고 뭐 하나 인생에 도움도 안주는데 내가 이렇게 진지하게 나올 때 제대로 한번 조언 좀 해줘보지"
}

数据字段

  • label : 确定话语的意图,可以是 fragment (0), statement (1), question (2), command (3), rhetorical question (4), rhetorical command (5) 或 intonation-depedent utterance (6)之一。
  • text : 韩语文本,涵盖有关家务、天气、交通等常见话题。

数据拆分

数据集分为55134个训练样本和6121个测试样本。

数据集创建

培训目标

对于韩语等后置语序的语言,语调可能是确定说话者意图的一个决定性因素。这个数据集的目的是通过使用语调的依赖性从后置语序中确定话语是片段、陈述、问题、命令还是修辞性问题/命令。这有望提高对韩语口述话语的语言理解,并对语音转文本应用程序有益。

源数据

初始数据收集和标准化

该语料库由首尔国立大学语音语言处理实验室提供,其中包含来自韩国语言研究所的一组常用词汇和手工创建的命令和问题。话语涵盖天气、交通和股票等主题。随机选择了2万行。

谁是源语言制作者?

韩语使用者创建了命令和问题。

标注

标注过程

将话语分类为七个类别。他们对注释指南(参见 here )提供了明确的指示,并且互评一致性为0.85,最终决策通过多数投票来完成。

谁是标注者?

注释由三位首尔的韩语L1使用者完成。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

数据集由Won Ik Cho、Hyeon Seung Lee、Ji Won Yoon、Seok Min Kim和Nam Soo Kim策划。

许可信息

数据集使用CC BY-SA-4.0许可。

引用信息

@article{cho2018speech,
    title={Speech Intention Understanding in a Head-final Language: A Disambiguation Utilizing Intonation-dependency},
    author={Cho, Won Ik and Lee, Hyeon Seung and Yoon, Ji Won and Kim, Seok Min and Kim, Nam Soo},
    journal={arXiv preprint arXiv:1811.04231},
    year={2018}
}

贡献

感谢 @stevhliu 添加了这个数据集。