数据集:
kor_3i4k
预印本库:
arxiv:1811.04231许可:
cc-by-4.0源数据集:
original语言创建人:
expert-generated批注创建人:
expert-generated任务:
文本分类语言:
ko计算机处理:
monolingual大小:
10K<n<100K3i4K数据集是一个包含常用韩语单词(由首尔国立大学语音语言处理实验室提供的语料库)和手工创建的包含短语音的问题/命令的集合。其目标是根据其转录识别口述话语的说话者意图,有时还需要使用辅助声学特征。分类系统决定话语是片段、陈述、疑问、命令、修辞疑问句、修辞命令句还是依赖语调的话语。这一点非常重要,因为在韩语等后置语序的语言中,语调的程度在识别说话者意图方面发挥着重要作用。
数据集中的文本为韩语,相关的BCP-47代码为ko-KR。
一个示例数据实例包含一个短语音及其标签:
{ "label": 3, "text": "선수잖아 이 케이스 저 케이스 많을 거 아냐 선배라고 뭐 하나 인생에 도움도 안주는데 내가 이렇게 진지하게 나올 때 제대로 한번 조언 좀 해줘보지" }
数据集分为55134个训练样本和6121个测试样本。
对于韩语等后置语序的语言,语调可能是确定说话者意图的一个决定性因素。这个数据集的目的是通过使用语调的依赖性从后置语序中确定话语是片段、陈述、问题、命令还是修辞性问题/命令。这有望提高对韩语口述话语的语言理解,并对语音转文本应用程序有益。
该语料库由首尔国立大学语音语言处理实验室提供,其中包含来自韩国语言研究所的一组常用词汇和手工创建的命令和问题。话语涵盖天气、交通和股票等主题。随机选择了2万行。
谁是源语言制作者?韩语使用者创建了命令和问题。
将话语分类为七个类别。他们对注释指南(参见 here )提供了明确的指示,并且互评一致性为0.85,最终决策通过多数投票来完成。
谁是标注者?注释由三位首尔的韩语L1使用者完成。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集由Won Ik Cho、Hyeon Seung Lee、Ji Won Yoon、Seok Min Kim和Nam Soo Kim策划。
数据集使用CC BY-SA-4.0许可。
@article{cho2018speech, title={Speech Intention Understanding in a Head-final Language: A Disambiguation Utilizing Intonation-dependency}, author={Cho, Won Ik and Lee, Hyeon Seung and Yoon, Ji Won and Kim, Seok Min and Kim, Nam Soo}, journal={arXiv preprint arXiv:1811.04231}, year={2018} }
感谢 @stevhliu 添加了这个数据集。