数据集:

strombergnlp/nlpcc-stance

语言:

zh

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

"NLPCC 2016: 微博中的立场检测"数据集卡片

数据集摘要

这是一个用于中文立场预测的数据集。该数据来自于NLPCC-ICCPOL 2016中的共享任务"微博中的立场检测"。该数据集涵盖了Task A,这是一个强制性的监督任务,通过给定的标记数据来检测对五个感兴趣目标的立场。数据集中的一些实例已被移除,因为它们没有标签。

支持的任务和排行榜

  • 微博中的立场检测

语言

中文,与微博网站上使用的中文相同(bcp47:zh)

数据集结构

数据实例

示例实例:

{
  'id': '0', 
  'target': 'IphoneSE', 
  'text': '3月31日,苹果iPhone SE正式开卖,然而这款小屏新机并未出现人们预想的疯抢局面。根据市场分析机构Localytics周一公布的数据,iPhone SE正式上市的这个周末,销量成绩并不算太好。', 
  'stance': 2
}

数据字段

  • id:一个字符串字段,用于实例的唯一标识
  • target:一个字符串,代表立场的目标
  • text:一个包含立场内容的字符串
  • stance:一个表示类别标签的整数-- 0: AGAINST; 1: FAVOR; 2: NONE.

数据划分

训练集包含2986个实例

数据集创建

策划理由

目标是创建一个包含立场注释的微博文本数据集。选择了六个立场目标,并从新浪微博收集数据进行注释。

数据来源

初始数据收集和规范

未指定

谁是源语言制作人?

新浪微博用户

注释

注释过程

每个目标-微博对的立场由两个学生分别进行注释。如果这两个学生提供相同的注释,则标记该目标-微博对的立场。如果检测到不同的注释,则会指派第三个学生对该对进行注释。他们的注释结果将进行投票,以获取最终的标签。

谁是标注者?

中国的学生

个人和敏感信息

无任何反思

使用数据的注意事项

数据的社会影响

该数据以原数据形式保存了社交媒体的表达,因此不存在任何被遗忘权利,尽管用户名和帖子ID并未明确包含在数据中。

偏倚讨论

数据中将至少存在时间和地域偏倚,同时它仅代表了六个主题上的立场表达。

其他已知限制

其他信息

数据集策划者

该数据集由论文的作者策划。

许可信息

作者以知识共享署名4.0国际许可协议(CC-BY 4.0)分发此数据。

引用信息

@incollection{xu2016overview,
  title={Overview of nlpcc shared task 4: Stance detection in chinese microblogs},
  author={Xu, Ruifeng and Zhou, Yu and Wu, Dongyin and Gui, Lin and Du, Jiachen and Xue, Yun},
  booktitle={Natural language understanding and intelligent applications},
  pages={907--916},
  year={2016},
  publisher={Springer}
}

贡献

@mkonxd @leondz 添加