数据集:

oclar

英文

OCLAR数据集卡片

数据集摘要

OCLAR研究员Marwan等人(2019)收集了阿拉伯语广泛领域的 Zomato website 条客户评论,包括餐馆、酒店、医院、当地商店等。该语料库最终包含3916条5分制的评论。为了研究目的,正面类别指的是3465条评分在5到3之间的评论,负面类别指的是大约451条评分为1和2的文本。

支持的任务和排行榜

Opinion Corpus for Lebanese Arabic Reviews(OCLAR)可用于阿拉伯语情感分类,包括酒店、餐馆、商店等的服务评论。

语言

数据集中的文本为阿拉伯语,主要为黎巴嫩阿拉伯语(LB)。相关的BCP-47代码为ar-LB。

数据集结构

数据实例

典型的数据点包括一个页名,即被评价的服务/位置的名称,一个评论,即用户/客户留下的评论,以及一个评分,即1到5之间的分数。

作者认为,如果评分大于等于3,则评论被认为是积极的,否则被认为是消极的。

OCLAR数据集的一个示例如下:

  "pagename": 'Ramlet Al Baida Beirut Lebanon',
  "review": 'مكان يطير العقل ويساعد على الاسترخاء',
  "rating": 5,

数据字段

  • 页名:被评价的服务/位置的字符串名称
  • 评论:用户/消费者留下的字符串评论
  • 评分:评论者留下的星级数量,范围从1到5

数据拆分

数据集以一个包含总共3916条评论的单个CSV文件的形式呈现:

  • 3465条被认为是积极的(评分为3到5)
  • 451条被认为是消极的(评分为1或2)

数据集创建

策划理由

此数据集是为了在黎巴嫩国家对服务评论进行阿拉伯语情感分类而创建的。评论涉及到公共服务,包括酒店、餐馆、商店等。

源数据

初始数据收集和规范化

数据是从Google评论和 Zomato website 处收集的

谁是源语言生成者?

源语言生成者是在Google评论或 Zomato website 上发布评论的人,他们主要是阿拉伯语的黎巴嫩人。

注释

注释过程

数据集不包含任何其他的注释

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

作者的研究在来自Google和Zomato的3916条评论的黎巴嫩阿拉伯语情感分析任务中有着重要的社会意义。实验显示了三个主要发现:

  • 当用于预测积极评论时,分类器给出了有信心的预测结果,
  • 而在预测带有消极情感的评论时存在偏见,最后
  • 语料库中消极评论的低比例导致了逻辑回归的不确定性。
  • 偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    此数据集由黎巴嫩大学语言科学与传播中心(Centre for Language Sciences and Communication)、黎巴嫩大学Moustafa Al-Hajj、黎巴嫩大学Beirut的Nacereddine Hammami、Jouf University的Amani Sabra策划。

    许可信息

    [需要更多信息]

    引用信息

    • Marwan Al Omari,黎巴嫩大学语言科学与传播中心,黎巴嫩贝鲁特市,marwanalomari '@' yahoo.com
    • Moustafa Al-Hajj,黎巴嫩大学语言科学与传播中心,黎巴嫩贝鲁特市,moustafa.alhajj '@' ul.edu.lb
    • Nacereddine Hammami,Jouf大学计算机与信息科学学院,沙特阿拉伯Aljouf,n.hammami '@' ju.edu.sa
    • Amani Sabra,黎巴嫩大学语言科学与传播中心,黎巴嫩贝鲁特市,amani.sabra '@' ul.edu.lb
    @misc{Dua:2019 ,
    author = "Dua, Dheeru and Graff, Casey",
    year = "2017",
    title = "{UCI} Machine Learning Repository",
    url = "http://archive.ics.uci.edu/ml",
    institution = "University of California, Irvine, School of Information and Computer Sciences" }
    
    @InProceedings{AlOmari2019oclar,
    title = {Sentiment Classifier: Logistic Regression for Arabic Services Reviews in Lebanon},
    authors={Al Omari, M., Al-Hajj, M., Hammami, N., & Sabra, A.},
    year={2019}
    }
    

    贡献

    感谢 @alaameloh 添加了这个数据集。