数据集:

covid_tweets_japanese

子任务:

fact-checking

语言:

ja

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

COVID-19 日本語Twitterデータセット(COVID-19 Japanese Twitter Dataset)数据卡片

数据集概述

53,640条带注释的日本推文,注释表示该推文是否与COVID-19有关。注释由5-10名众包工作者根据多数决定进行。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。原始推文不包含在内,例如可以使用Twitter API获取它们。

支持的任务和排行榜

文本分类,判断推文是否与COVID-19有关以及判断其是事实还是观点。

语言

该数据集中的文本是在Twitter上发布的日语。

数据集结构

数据实例

CSV文件,第一列是Twitter ID,第二列是评估选项ID。

数据字段

  • tweet_id:推特ID。
  • assessment_option_id:选择结果。具体含义如下:
    • 63:一般事实:普遍发布的信息,例如新闻。
    • 64:个人事实:个人消息。例如,某人听说隔壁邻居XX感染了COVID-19,这并没有在新闻中报道。
    • 65:观点/感受
    • 66:难以确定是否与COVID-19相关(肯定不是"67: 无关",但无法确定是否是63、64和65)
    • 67:无关
    • 68:是事实,但难以确定是一般事实、个人事实还是观点(可能与COVID-19无关,因为63-65和67之间无法区分)

数据拆分

暂无关于该数据集的文章发布,看起来数据集的作者愿意发表一篇文章(尚不能确定是否会提供拆分信息)。因此,此时还没有提供数据拆分的信息。

数据集创建

策划理由

[需要更多信息],因为该论文尚未发表。

源数据

初始数据收集和规范化

53,640条带注释的日本推文,注释表示该推文是否与COVID-19有关。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。

谁是源语言的生产者?

源语言的生产者是Twitter的用户。

注释

注释流程

注释是由5-10名众包工作者通过多数决定进行的。

谁是标注者?

是众包工作者。

个人和敏感信息

作者不包含原始推文。

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

额外信息

数据集策划者

该数据集由日本岐阜大学铃木实验室托管。

许可信息

CC-BY-ND 4.0

引用信息

相关论文尚未发表。作者展示了如何引用为「鈴木 優: COVID-19 日本語 Twitter データセット ( http://www.db.info.gifu-u.ac.jp/data/Data_5f02db873363f976fce930d1 )」。

贡献

感谢 @forest1988 添加了这个数据集。