数据集:
offenseval2020_tr
任务:
文本分类语言:
tr计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
cc-by-2.0offenseval-tr-training-v1.tsv 文件包含31,756个带标注的推文。
offenseval-annotation.txt 文件包含注释指南的简短摘要。
Twitter用户提及被替换为 @USER,URL被替换为URL。
每个实例包含一个标签,对应以下子任务之一:
该数据集发布在此 paper 上。
数据集基于土耳其语。
二进制数据集,包含(NOT)非冒犯性和(OFF)冒犯性推文。
实例以TSV格式包含如下内容:
ID INSTANCE SUBA
文件中的列名如下:
id tweet subtask_a
注释中使用的标签如下所示。 任务和标签
在我们的注释中,如果帖子包含任何形式的不可接受语言(粗俗语言)或有针对性的冒犯,我们将其标记为冒犯性(OFF)。
train | test |
---|---|
31756 | 3528 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言制作者?来自推特。
[需要更多信息]
注释过程我们以“平面”的方式描述上述标签。然而,我们遵循的注释过程是分层的。以下问答对提供了更类似流程图的步骤
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
注释按照 Creative Commons Attribution License (CC-BY) 的条款分发。如果您使用此资源,请引用以下论文。
@inproceedings{coltekin2020lrec, author = {\c{C}\"{o}ltekin, \c{C}a\u{g}r{\i}}, year = {2020}, title = {A Corpus of Turkish Offensive Language on Social Media}, booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference}, pages = {6174--6184}, address = {Marseille, France}, url = {https://www.aclweb.org/anthology/2020.lrec-1.758}, }
感谢 @yavuzKomecoglu 添加此数据集。