数据集:
oclar
许可:
license:unknown源数据集:
original批注创建人:
crowdsourced语言创建人:
crowdsourced大小:
1K<n<10K计算机处理:
monolingual语言:
ar任务:
文本分类OCLAR研究员Marwan等人(2019)收集了阿拉伯语广泛领域的 Zomato website 条客户评论,包括餐馆、酒店、医院、当地商店等。该语料库最终包含3916条5分制的评论。为了研究目的,正面类别指的是3465条评分在5到3之间的评论,负面类别指的是大约451条评分为1和2的文本。
Opinion Corpus for Lebanese Arabic Reviews(OCLAR)可用于阿拉伯语情感分类,包括酒店、餐馆、商店等的服务评论。
数据集中的文本为阿拉伯语,主要为黎巴嫩阿拉伯语(LB)。相关的BCP-47代码为ar-LB。
典型的数据点包括一个页名,即被评价的服务/位置的名称,一个评论,即用户/客户留下的评论,以及一个评分,即1到5之间的分数。
作者认为,如果评分大于等于3,则评论被认为是积极的,否则被认为是消极的。
OCLAR数据集的一个示例如下:
"pagename": 'Ramlet Al Baida Beirut Lebanon', "review": 'مكان يطير العقل ويساعد على الاسترخاء', "rating": 5,
数据集以一个包含总共3916条评论的单个CSV文件的形式呈现:
此数据集是为了在黎巴嫩国家对服务评论进行阿拉伯语情感分类而创建的。评论涉及到公共服务,包括酒店、餐馆、商店等。
数据是从Google评论和 Zomato website 处收集的
谁是源语言生成者?源语言生成者是在Google评论或 Zomato website 上发布评论的人,他们主要是阿拉伯语的黎巴嫩人。
数据集不包含任何其他的注释
注释者是谁?[需要更多信息]
[需要更多信息]
作者的研究在来自Google和Zomato的3916条评论的黎巴嫩阿拉伯语情感分析任务中有着重要的社会意义。实验显示了三个主要发现:
[需要更多信息]
[需要更多信息]
此数据集由黎巴嫩大学语言科学与传播中心(Centre for Language Sciences and Communication)、黎巴嫩大学Moustafa Al-Hajj、黎巴嫩大学Beirut的Nacereddine Hammami、Jouf University的Amani Sabra策划。
[需要更多信息]
@misc{Dua:2019 , author = "Dua, Dheeru and Graff, Casey", year = "2017", title = "{UCI} Machine Learning Repository", url = "http://archive.ics.uci.edu/ml", institution = "University of California, Irvine, School of Information and Computer Sciences" } @InProceedings{AlOmari2019oclar, title = {Sentiment Classifier: Logistic Regression for Arabic Services Reviews in Lebanon}, authors={Al Omari, M., Al-Hajj, M., Hammami, N., & Sabra, A.}, year={2019} }
感谢 @alaameloh 添加了这个数据集。