数据集:

covid_tweets_japanese

任务:

文本分类

子任务:

fact-checking

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-nd-4.0

数据集介绍文件清单

英文

COVID-19 日本語Twitterデータセット（COVID-19 Japanese Twitter Dataset）数据卡片

数据集概述

53,640条带注释的日本推文，注释表示该推文是否与COVID-19有关。注释由5-10名众包工作者根据多数决定进行。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。原始推文不包含在内，例如可以使用Twitter API获取它们。

支持的任务和排行榜

文本分类，判断推文是否与COVID-19有关以及判断其是事实还是观点。

语言

该数据集中的文本是在Twitter上发布的日语。

数据集结构

数据实例

CSV文件，第一列是Twitter ID，第二列是评估选项ID。

数据字段

tweet_id：推特ID。
assessment_option_id：选择结果。具体含义如下：
- 63：一般事实：普遍发布的信息，例如新闻。
- 64：个人事实：个人消息。例如，某人听说隔壁邻居XX感染了COVID-19，这并没有在新闻中报道。
- 65：观点/感受
- 66：难以确定是否与COVID-19相关（肯定不是"67: 无关"，但无法确定是否是63、64和65）
- 67：无关
- 68：是事实，但难以确定是一般事实、个人事实还是观点（可能与COVID-19无关，因为63-65和67之间无法区分）

数据拆分

暂无关于该数据集的文章发布，看起来数据集的作者愿意发表一篇文章（尚不能确定是否会提供拆分信息）。因此，此时还没有提供数据拆分的信息。

数据集创建

策划理由

[需要更多信息]，因为该论文尚未发表。

源数据

初始数据收集和规范化

53,640条带注释的日本推文，注释表示该推文是否与COVID-19有关。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。

谁是源语言的生产者？

源语言的生产者是Twitter的用户。

注释

注释流程

注释是由5-10名众包工作者通过多数决定进行的。

谁是标注者？

是众包工作者。

个人和敏感信息

作者不包含原始推文。

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

额外信息

数据集策划者

该数据集由日本岐阜大学铃木实验室托管。

许可信息

CC-BY-ND 4.0

引用信息

相关论文尚未发表。作者展示了如何引用为「鈴木優: COVID-19 日本語 Twitter データセット（ http://www.db.info.gifu-u.ac.jp/data/Data_5f02db873363f976fce930d1 ）」。

贡献

感谢 @forest1988 添加了这个数据集。

作者:

佚名

数据集大小:

11.04 KB