数据集:

kor_sarcasm

许可:

mit

源数据集:

original

批注创建人:

expert-generated

语言创建人:

found

大小:

1K<n<10K

计算机处理:

monolingual

语言:

ko
英文

韩国讽刺检测数据集卡片

数据集摘要

韩国讽刺数据集被创建用于检测文本中的讽刺,这可以显著改变句子的原始含义。从Twitter收集了9319个推文,并标记为讽刺或非讽刺。这些推文是通过查询以下关键词收集的:역설, 아무말, 운수좋은날, 笑, 뭐래 아닙니다, 그럴리없다, 어그로, irony sarcastic和sarcasm。数据集经过预处理,删除了关键词的哈希标签、URL和用户提及,以保持匿名性。

支持的任务和排行榜

  • 讽刺检测:可以使用数据集训练一个模型来检测讽刺推文。可以向模型提供一条韩文推文,并询问它是否讽刺。

语言

数据集中的文本为韩文,相关的BCP-47代码是ko-KR。

数据集结构

数据实例

一个示例数据实例包含一条韩文推文和一个标签,指示它是否是讽刺的。1代表讽刺,0代表非讽刺。

数据字段

  • tokens:包含推文的文本
  • label:确定文本是否为讽刺(1:讽刺,0:非讽刺)

数据拆分

数据分为一个由9018个推文组成的训练集和一个由301个推文组成的测试集。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

数据集是通过收集Twitter上的HTML数据创建的。使用包含讽刺及其变体的标签的查询返回推文。经过预处理,删除了关键词的哈希标签、URL和用户提及,以保持匿名性。

谁是源语言的生产者?

源语言的生产者是韩国的Twitter用户。

注释

注释过程

推文被标记为1表示讽刺,0表示非讽刺。

谁是注释者?

[需要更多信息]

个人和敏感信息

删除推文中对用户的提及以保持其匿名性。

使用数据的注意事项

数据的社会影响

[需要更多信息]

对偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集是由Dionne Kim策划的。

许可信息

该数据集根据MIT许可证获得许可。

引用信息

贡献

感谢 @stevhliu 添加了这个数据集。