数据集:
tamilmixsentiment
任务:
计算机处理:
multilingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
这是第一个含有15,744个YouTube评论帖子的标注的泰米尔语-英语的金标准数据集。这是一个相对资源有限的语言中带有代码混合现象的最大的通用领域情感数据集。评论/帖子可能包含多个句子,但是该语料库的平均句子长度为1。每个评论/帖子都有情感极性的标注。该数据集还存在类别不平衡问题,反映了真实世界的情况。
用于识别来自社交媒体的泰米尔语-英语代码混合评论/帖子数据集的情感极性。
泰米尔语-英语代码混合。该数据集包含三种类型的代码混合句子-句间切换、句内切换和标签切换。大多数评论使用罗马字母写成,使用泰米尔语的语法和英语的词汇,或者使用英语的语法和泰米尔语的词汇。有些评论使用泰米尔语书写,其中夹杂着英语表达方式。
Tamilmixsentiment训练集的一个示例如下:
text label Trailer late ah parthavanga like podunga Positive
整个数据集的15,744个句子随机洗牌,并分成以下三个部分:
train | validation | test | |
---|---|---|---|
Tamilmixsentiment | 11335 | 1260 | 3149 |
情感分析已经成为社交媒体研究的重要组成部分(Yang和Eisenstein,2017)。但直到最近,这些应用程序是为高资源语言创建的,用于分析单语言的发言。但是,多语言社区的社交媒体包含更多的代码混合文本。代码混合在双语演讲社区中很常见。由于英语被视为声望和教育的语言,在口语泰米尔语中,从英语语言中借用词汇、连词和短语是常见的。对于代码混合情况,泰米尔语的注释语料库不适用于处理代码混合的情况,因此在语言分析的不同层次上的语言混用会导致结果不佳。因此,创建了这个代码混合的泰米尔语-英语情感标注语料库数据集。
数据从YouTube上收集而来。总共从2019年的电影预告片的YouTube评论中收集了184,573个泰米尔语句子。其中很多句子完全是用英语书写的,或者是泰米尔语-英语代码混合的,或者是完全用泰米尔语书写的。因此,我们根据使用langdetect库对评论级别的语言识别筛选出了非代码混合的语料库。如果评论完全用泰米尔语或英语书写,我们会将该评论丢弃,因为针对这些语言已有单语资源可用。我们还确定了评论是否用其他语言(如印地语、马拉雅拉姆语、乌尔都语、泰卢固语和卡纳达语)书写。我们对评论进行了预处理,删除了表情符号,并应用了句子长度过滤器。我们希望创建一个合理大小的代码混合语料库,其中的句子具有明确的情感,这将对未来的研究有所帮助。因此,在清理数据后,我们得到了15,744个塔米尔语-英语混合语句子。
数据的来源语言生成者是谁?YouTube用户
注释设置包括三个步骤。首先,每个句子由两个人标注。第二步,如果两个人都达成一致,则收集数据。如果存在冲突,则由第三个人标注句子。第三步,如果三方都不能达成一致,则由另外两个标注者标注句子。
注释者是谁?这个过程中涉及了11位志愿者。他们都是泰米尔语的母语者,性别、教育水平和学校教育媒体多样。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{chakravarthi-etal-2020-corpus, title = "Corpus Creation for Sentiment Analysis in Code-Mixed {T}amil-{E}nglish Text", author = "Chakravarthi, Bharathi Raja and Muralidaran, Vigneshwaran and Priyadharshini, Ruba and McCrae, John Philip", booktitle = "Proceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL)", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources association", url = "https://www.aclweb.org/anthology/2020.sltu-1.28", pages = "202--210", abstract = "Understanding the sentiment of a comment from a video or an image is an essential task in many applications. Sentiment analysis of a text can be useful for various decision-making processes. One such application is to analyse the popular sentiments of videos on social media based on viewer comments. However, comments from social media do not follow strict rules of grammar, and they contain mixing of more than one language, often written in non-native scripts. Non-availability of annotated code-mixed data for a low-resourced language like Tamil also adds difficulty to this problem. To overcome this, we created a gold standard Tamil-English code-switched, sentiment-annotated corpus containing 15,744 comment posts from YouTube. In this paper, we describe the process of creating the corpus and assigning polarities. We present inter-annotator agreement and show the results of sentiment analysis trained on this corpus as a benchmark.", language = "English", ISBN = "979-10-95546-35-1", }
感谢 @jamespaultg 添加了这个数据集。