数据集:

multi_booked

语言:

ca eu

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1803.08614

许可:

cc-by-3.0
英文

MultiBooked 数据集卡片

数据集概述

MultiBooked 是一篇巴斯克语和加泰罗尼亚语酒店评论方面级别情感分类的标注语料库。

这个语料库主要来自于booking.com上的酒店评论。语料库以Kaf/Naf格式编制,这是一种允许多层注释的xml样式标准格式。每条评论都经过了句子和词的分词以及Catalan使用Freeling和Basque使用ixa-pipes进行词形还原。最后,针对每个语言,两位标注员按照OpeNER项目中的指南,为每个评论标注了意见持有者、意见目标和意见表达。

支持的任务和排行榜

[需要更多信息]

语言

每个子数据集都是以下语言的单语言数据:

  • ca:加泰罗尼亚语
  • eu:巴斯克语

数据集结构

数据实例

[需要更多信息]

数据字段

  • text : 原始文本的层。
    • wid : 每个词的词ID列表。
    • sent : 每个句子的句子ID列表。
    • para : 每个段落的段落ID列表。
    • word : 词列表。
  • terms : 从原始文本分析得到的术语层(词形还原、形态学、词性标注)。
    • tid : 每个术语的术语ID列表。
    • lemma : lemmas列表。
    • morphofeat : 形态学特征列表。
    • pos : 词性标签列表。
    • target : 对应的词ID子列表的列表(通常,子列表只包含一个元素,与单词和术语之间一对一对应)。
  • opinions : 文本中的观点层。
    • oid : 观点ID列表。
    • opinion_holder_target : 跨越观点持有者的对应术语ID的子列表列表。
    • opinion_target_target : 跨越观点目标的对应术语ID的子列表列表。
    • opinion_expression_polarity : 观点表达的极性列表。极性可以取以下值之一:StrongNegative,Negative,Positive或StrongPositive。
    • opinion_expression_target : 跨越观点表达的对应术语ID的子列表列表。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注员?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

数据集采用 CC-BY 3.0 许可协议。

引用信息

@inproceedings{Barnes2018multibooked,
    author={Barnes, Jeremy and Lambert, Patrik and Badia, Toni},
    title={MultiBooked: A corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification},
    booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC'18)},
    year = {2018},
    month = {May},
    date = {7-12},
    address = {Miyazaki, Japan},
    publisher = {European Language Resources Association (ELRA)},
    language = {english}
}

贡献

感谢 @albertvillanova 添加了该数据集。