数据集:
covid_tweets_japanese
任务:
文本分类子任务:
fact-checking语言:
ja计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original许可:
cc-by-nd-4.053,640条带注释的日本推文,注释表示该推文是否与COVID-19有关。注释由5-10名众包工作者根据多数决定进行。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。原始推文不包含在内,例如可以使用Twitter API获取它们。
文本分类,判断推文是否与COVID-19有关以及判断其是事实还是观点。
该数据集中的文本是在Twitter上发布的日语。
CSV文件,第一列是Twitter ID,第二列是评估选项ID。
暂无关于该数据集的文章发布,看起来数据集的作者愿意发表一篇文章(尚不能确定是否会提供拆分信息)。因此,此时还没有提供数据拆分的信息。
[需要更多信息],因为该论文尚未发表。
53,640条带注释的日本推文,注释表示该推文是否与COVID-19有关。目标推文包括包含"COVID"或"コロナ"的内容。推文的时间范围大约是从2020年1月到2020年6月。
谁是源语言的生产者?源语言的生产者是Twitter的用户。
注释是由5-10名众包工作者通过多数决定进行的。
谁是标注者?是众包工作者。
作者不包含原始推文。
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集由日本岐阜大学铃木实验室托管。
CC-BY-ND 4.0
相关论文尚未发表。作者展示了如何引用为「鈴木 優: COVID-19 日本語 Twitter データセット ( http://www.db.info.gifu-u.ac.jp/data/Data_5f02db873363f976fce930d1 )」。
感谢 @forest1988 添加了这个数据集。