英文

AfriSenti数据集数据卡片

数据集摘要

AfriSenti是最大的非洲语言情感分析数据集,涵盖14种非洲语言的110,000多个带注释的推文(阿姆哈拉语,阿尔及利亚阿拉伯语,豪萨语,伊博语,基尼亚兰达语,摩洛哥阿拉伯语,莫桑比克葡萄牙语,尼日利亚皮钦语,奥罗莫语,斯瓦希里语,提格利尼亚语,托威语,西郎加语和约鲁巴语)。

这些数据集用于第一个非洲中心SemEval共享任务,SemEval 2023任务12:非洲语言情感分析(AfriSenti-SemEval)。AfriSenti允许研究界为各种非洲语言构建情感分析系统,并促进对非洲语言中情感和当代语言使用的研究。

支持的任务和排行榜

AfriSenti可用于各种非洲语言的情感分析任务,如情感分类,情感强度分析和情绪检测。该数据集适用于训练和评估与非洲语言情感分析相关的各种自然语言处理任务的机器学习模型。 SemEval 2023 Task 12 : Sentiment Analysis for African Languages

语言

14种非洲语言(阿姆哈拉语(amh),阿尔及利亚阿拉伯语(ary),豪萨语(hau),伊博语(ibo),基尼亚兰达语(kin),摩洛哥阿拉伯语/达里贾语(arq),莫桑比克葡萄牙语(por),尼日利亚皮钦语(pcm),奥罗莫语(oro),斯瓦希里语(swa),提格利尼亚语(tir),托威语(twi),西郎加语(tso)和约鲁巴语(yor))。

数据集结构

数据实例

对于每个实例,有一个推文的字符串和一个标签的字符串。请参见AfriSenti dataset viewer 以了解更多示例。

{
  "tweet": "string",
  "label": "string"
}

数据字段

数据字段如下:

tweet: a string feature.
label: a classification label, with possible values including positive, negative and neutral.

数据拆分

AfriSenti数据集有3个拆分:训练集,验证集和测试集。以下是版本1.0.0的数据集统计信息。

ama arq hau ibo ary orm pcm pt-MZ kin swa tir tso twi yo
train 5,982 1,652 14,173 10,193 5,584 - 5,122 3,064 3,303 1,811 - 805 3,482 8,523
dev 1,498 415 2,678 1,842 1,216 397 1,282 768 828 454 399 204 389 2,091
test 2,000 959 5,304 3,683 2,962 2,097 4,155 3,663 1,027 749 2,001 255 950 4,516
total 9,483 3,062 22,155 15,718 9,762 2,494 10,559 7,495 5,158 3,014 2,400 1,264 4,821 15,130

如何使用

from  datasets  import  load_dataset

# you can load specific languages (e.g., Amharic). This download train, validation and test sets. 
ds = load_dataset("shmuhammad/AfriSenti-twitter-sentiment", "amh")

# train set only
ds = load_dataset("shmuhammad/AfriSenti-twitter-sentiment", "amh", split = "train")

# test set only
ds = load_dataset("shmuhammad/AfriSenti-twitter-sentiment", "amh", split = "test")

# validation set only
ds = load_dataset("shmuhammad/AfriSenti-twitter-sentiment", "amh", split = "validation")

数据集创建

策展原理

AfriSenti版本1.0.0旨在用于第一个非洲中心SemEval共享任务 SemEval 2023 Task 12: Sentiment analysis for African languages (AfriSenti-SemEval)

源数据

推特

Initial Data Collection and Normalization

[需要更多信息]

Who are the source language producers?

[需要更多信息]

注释

Annotation process

[需要更多信息]

Who are the annotators?

[需要更多信息]

个人敏感信息

我们通过将所有@mentions替换为@user并删除所有URL来对推文进行了匿名处理。

使用数据的注意事项

数据集的社会影响

Afrisenti数据集有潜力提高非洲语言的情感分析能力,这对于理解和分析非洲大陆人民多样化观点至关重要。该数据集可以使研究人员和开发人员创建特定于非洲语言的情感分析模型,从而可以用于深入了解非洲国家人民的社会,文化和政治观点。此外,该数据集可以帮助解决非洲语言在自然语言处理中的代表性不足问题,为更加公平和包容的AI技术铺平道路。

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

AfriSenti是NaijaSenti的扩展,NaijaSenti是由四种尼日利亚语言组成的数据集:豪萨语,约鲁巴语,伊博语和尼日利亚皮钦语。该数据集已扩展以包括其他10种非洲语言,并在以下人员的帮助下策划:

Language Dataset Curators
Algerian Arabic (arq) Nedjma Ousidhoum, Meriem Beloucif
Amharic (ama) Abinew Ali Ayele, Seid Muhie Yimam
Hausa (hau) Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Ibrahim Said, Bello Shehu Bello
Igbo (ibo) Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Ibrahim Said, Bello Shehu Bello
Kinyarwanda (kin) Samuel Rutunda
Moroccan Arabic/Darija (ary) Oumaima Hourrane
Mozambique Portuguese (pt-MZ) Felermino Dário Mário António Ali
Nigerian Pidgin (pcm) Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Ibrahim Said, Bello Shehu Bello
Oromo (orm) Abinew Ali Ayele, Seid Muhie Yimam, Hagos Tesfahun Gebremichael, Sisay Adugna Chala, Hailu Beshada Balcha, Wendimu Baye Messell, Tadesse Belay
Swahili (swa) Davis Davis
Tigrinya (tir) Abinew Ali Ayele, Seid Muhie Yimam, Hagos Tesfahun Gebremichael, Sisay Adugna Chala, Hailu Beshada Balcha, Wendimu Baye Messell, Tadesse Belay
Twi (twi) Salomey Osei, Bernard Opoku, Steven Arthur
Xithonga (tso) Felermino Dário Mário António Ali
Yoruba (yor) Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Ibrahim Said, Bello Shehu Bello

许可信息

此AfriSenti在Creative Commons Attribution 4.0 International许可下许可

引用信息

@inproceedings{Muhammad2023AfriSentiAT,
  title={AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages},
  author={Shamsuddeen Hassan Muhammad and Idris Abdulmumin and Abinew Ali Ayele and Nedjma Ousidhoum and David Ifeoluwa Adelani and Seid Muhie Yimam and Ibrahim Sa'id Ahmad and Meriem Beloucif and Saif Mohammad and Sebastian Ruder and Oumaima Hourrane and Pavel Brazdil and Felermino D'ario M'ario Ant'onio Ali and Davis Davis and Salomey Osei and Bello Shehu Bello and Falalu Ibrahim and Tajuddeen Gwadabe and Samuel Rutunda and Tadesse Belay and Wendimu Baye Messelle and Hailu Beshada Balcha and Sisay Adugna Chala and Hagos Tesfahun Gebremichael and Bernard Opoku and Steven Arthur},
  year={2023}
}
@article{muhammad2023semeval,
  title={SemEval-2023 Task 12: Sentiment Analysis for African Languages (AfriSenti-SemEval)},
  author={Muhammad, Shamsuddeen Hassan and Abdulmumin, Idris and Yimam, Seid Muhie and Adelani, David Ifeoluwa and Ahmad, Ibrahim Sa'id and Ousidhoum, Nedjma and Ayele, Abinew and Mohammad, Saif M and Beloucif, Meriem},
  journal={arXiv preprint arXiv:2304.06845},
  year={2023}
}

贡献

[需要更多信息]