数据集:
hebrew_sentiment
任务:
文本分类语言:
he计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
mitHebrewSentiment 是一个包含12,804条用户评论的数据集,这些评论是针对以色列总统鲁文·里夫林先生的官方Facebook页面的帖子。2015年10月,我们使用开源软件Netvizz(Rieder,2013年)爬取了里夫林总统在2014年6月至8月期间的所有帖子的所有评论,也就是里夫林担任总统的头三个月。尽管总统的帖子旨在化解紧张局势,呼吁宽容和同理心,但评论中表达的情感在公民之间极端分化,有些公民对总统表示热情感谢,而有些公民则严厉批评他的政策。在12,804条评论中,有370条是中性评论,8,512条是积极评论,3,922条是消极评论。
数据注释:
情感分析
希伯来语
tsv 格式:{希伯来语句子}\t{情感标签}
רובי הייתי רוצה לראות ערביה נישאת ליהודי 1תמונה יפיפיה-שפו 0חייבים לעשות סוג של חרם כשכתבים שונאי ישראל עולים לשידור צריכים להעביר לערוץ אחר ואז תראו מה יעשה כוחו של הרייטינג ( בהקשר לדבריה של רינה מצליח ) 2
train | test | |
---|---|---|
HebrewSentiment (token) | 10243 | 2559 |
HebrewSentiment (morph) | 10243 | 2559 |
需要更多信息
以色列总统鲁文·里夫林先生的官方Facebook页面的用户评论。2015年10月,我们使用开源软件Netvizz(Rieder,2013年)爬取了里夫林总统在2014年6月至8月期间的所有帖子的所有评论,也就是里夫林担任总统的头三个月。
谁是源语言生产者?需要更多信息
训练过的研究人员检查每条评论,并确定它的情感值,对于整体上积极的评论,分配值0,对于整体上消极的评论,分配值1,对于与帖子内容无关的评论,分配值2。我们通过要求第二位经过训练的研究人员对相同数据进行编码来验证编码方案。两位评估者之间存在较大的一致性(一致的数量:10623,不一致的数量:2105,Cohen's Kappa = 0.697,p = 0)。
谁是标注者?研究人员
需要更多信息
需要更多信息
需要更多信息
需要更多信息
OMIlab, 以色列公开大学
MIT许可证
版权所有(c)2018 OMIlab,以色列公开大学
特此免费授予任何获得此软件及其相关文档文件("软件")的人,无需支付任何费用,以处理或使用这些文件,包括但不限于使用、复制、修改、合并、发布、分发、再授权和/或出售这些软件的权利,并允许获得软件的人按照以下条件处理软件,提交给软件的所有副本或重要部分都应包含上述版权声明和本许可声明。
本软件按"原样"提供,不提供任何明示或暗示的担保,包括但不限于适销性、适用性和非侵权性的担保。无论在何种情况下,作者或版权持有人均不对任何索赔、损害或其他责任承担责任,无论是合同行为、侵权行为还是其他行为的结果,均起源于或与本软件或使用或其他权益有关。
@inproceedings{amram-etal-2018-representations, title = "Representations and Architectures in Neural Sentiment Analysis for Morphologically Rich Languages: A Case Study from {M}odern {H}ebrew", author = "Amram, Adam and Ben David, Anat and Tsarfaty, Reut", booktitle = "Proceedings of the 27th International Conference on Computational Linguistics", month = aug, year = "2018", address = "Santa Fe, New Mexico, USA", publisher = "Association for Computational Linguistics", url = " https://www.aclweb.org/anthology/C18-1190" , pages = "2242--2252", abstract = "This paper empirically studies the effects of representation choices on neural sentiment analysis for Modern Hebrew, a morphologically rich language (MRL) for which no sentiment analyzer currently exists. We study two dimensions of representational choices: (i) the granularity of the input signal (token-based vs. morpheme-based), and (ii) the level of encoding of vocabulary items (string-based vs. character-based). We hypothesise that for MRLs, languages where multiple meaning-bearing elements may be carried by a single space-delimited token, these choices will have measurable effects on task perfromance, and that these effects may vary for different architectural designs {---} fully-connected, convolutional or recurrent. Specifically, we hypothesize that morpheme-based representations will have advantages in terms of their generalization capacity and task accuracy, due to their better OOV coverage. To empirically study these effects, we develop a new sentiment analysis benchmark for Hebrew, based on 12K social media comments, and provide two instances of these data: in token-based and morpheme-based settings. Our experiments show that representation choices empirical effects vary with architecture type. While fully-connected and convolutional networks slightly prefer token-based settings, RNNs benefit from a morpheme-based representation, in accord with the hypothesis that explicit morphological information may help generalize. Our endeavour also delivers the first state-of-the-art broad-coverage sentiment analyzer for Hebrew, with over 89{%} accuracy, alongside an established benchmark to further study the effects of linguistic representation choices on neural networks{'}} task performance.",}
感谢 @elronbandel 提供该数据集。