数据集:
strombergnlp/nlpcc-stance
任务:
文本分类子任务:
sentiment-analysis语言:
zh计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original其他:
stance-detection许可:
cc-by-4.0这是一个用于中文立场预测的数据集。该数据来自于NLPCC-ICCPOL 2016中的共享任务"微博中的立场检测"。该数据集涵盖了Task A,这是一个强制性的监督任务,通过给定的标记数据来检测对五个感兴趣目标的立场。数据集中的一些实例已被移除,因为它们没有标签。
中文,与微博网站上使用的中文相同(bcp47:zh)
示例实例:
{ 'id': '0', 'target': 'IphoneSE', 'text': '3月31日,苹果iPhone SE正式开卖,然而这款小屏新机并未出现人们预想的疯抢局面。根据市场分析机构Localytics周一公布的数据,iPhone SE正式上市的这个周末,销量成绩并不算太好。', 'stance': 2 }
训练集包含2986个实例
目标是创建一个包含立场注释的微博文本数据集。选择了六个立场目标,并从新浪微博收集数据进行注释。
未指定
谁是源语言制作人?新浪微博用户
每个目标-微博对的立场由两个学生分别进行注释。如果这两个学生提供相同的注释,则标记该目标-微博对的立场。如果检测到不同的注释,则会指派第三个学生对该对进行注释。他们的注释结果将进行投票,以获取最终的标签。
谁是标注者?中国的学生
无任何反思
该数据以原数据形式保存了社交媒体的表达,因此不存在任何被遗忘权利,尽管用户名和帖子ID并未明确包含在数据中。
数据中将至少存在时间和地域偏倚,同时它仅代表了六个主题上的立场表达。
该数据集由论文的作者策划。
作者以知识共享署名4.0国际许可协议(CC-BY 4.0)分发此数据。
@incollection{xu2016overview, title={Overview of nlpcc shared task 4: Stance detection in chinese microblogs}, author={Xu, Ruifeng and Zhou, Yu and Wu, Dongyin and Gui, Lin and Du, Jiachen and Xue, Yun}, booktitle={Natural language understanding and intelligent applications}, pages={907--916}, year={2016}, publisher={Springer} }