数据集:
kor_sarcasm
许可:
mit源数据集:
original批注创建人:
expert-generated语言创建人:
found大小:
1K<n<10K计算机处理:
monolingual语言:
ko任务:
文本分类韩国讽刺数据集被创建用于检测文本中的讽刺,这可以显著改变句子的原始含义。从Twitter收集了9319个推文,并标记为讽刺或非讽刺。这些推文是通过查询以下关键词收集的:역설, 아무말, 운수좋은날, 笑, 뭐래 아닙니다, 그럴리없다, 어그로, irony sarcastic和sarcasm。数据集经过预处理,删除了关键词的哈希标签、URL和用户提及,以保持匿名性。
数据集中的文本为韩文,相关的BCP-47代码是ko-KR。
一个示例数据实例包含一条韩文推文和一个标签,指示它是否是讽刺的。1代表讽刺,0代表非讽刺。
数据分为一个由9018个推文组成的训练集和一个由301个推文组成的测试集。
[需要更多信息]
数据集是通过收集Twitter上的HTML数据创建的。使用包含讽刺及其变体的标签的查询返回推文。经过预处理,删除了关键词的哈希标签、URL和用户提及,以保持匿名性。
谁是源语言的生产者?源语言的生产者是韩国的Twitter用户。
推文被标记为1表示讽刺,0表示非讽刺。
谁是注释者?[需要更多信息]
删除推文中对用户的提及以保持其匿名性。
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集是由Dionne Kim策划的。
该数据集根据MIT许可证获得许可。
感谢 @stevhliu 添加了这个数据集。