数据集:
multi_booked
任务:
文本分类计算机处理:
monolingual大小:
n<1K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1803.08614许可:
cc-by-3.0MultiBooked 是一篇巴斯克语和加泰罗尼亚语酒店评论方面级别情感分类的标注语料库。
这个语料库主要来自于booking.com上的酒店评论。语料库以Kaf/Naf格式编制,这是一种允许多层注释的xml样式标准格式。每条评论都经过了句子和词的分词以及Catalan使用Freeling和Basque使用ixa-pipes进行词形还原。最后,针对每个语言,两位标注员按照OpeNER项目中的指南,为每个评论标注了意见持有者、意见目标和意见表达。
[需要更多信息]
每个子数据集都是以下语言的单语言数据:
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和标准化
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
注释过程
[需要更多信息]
谁是标注员?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集采用 CC-BY 3.0 许可协议。
@inproceedings{Barnes2018multibooked, author={Barnes, Jeremy and Lambert, Patrik and Badia, Toni}, title={MultiBooked: A corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification}, booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC'18)}, year = {2018}, month = {May}, date = {7-12}, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, language = {english} }
感谢 @albertvillanova 添加了该数据集。