数据集:
arabic_pos_dialect
预印本库:
arxiv:1708.05891许可:
批注创建人:
expert-generated源数据集:
extended任务:
子任务:
part-of-speech语言:
计算机处理:
multilingual大小:
n<1K语言创建人:
found该数据集旨在支持阿拉伯方言的词性(POS)标记。它包含每种方言(埃及、黎凡特、海湾和摩洛哥)的350个人工分割和POS标记的推文集合。
该数据集可用于训练阿拉伯方言的分词和词性标记模型。成功的关键在于在预留的数据集上实现良好的准确性。Darwish等人使用CRF模型跨越所有四种方言进行了训练,并获得了平均准确率为89.3%。
BCP-47代码是ar-Arab。数据集由四种阿拉伯方言组成,分别是埃及方言(EGY)、黎凡特方言(LEV)、海湾方言(GLF)和摩洛哥方言(MGR),用阿拉伯文书写。
下面是埃及方言数据集的部分示例:
- `Fold`: 4 - `SubFold`: A - `Word`: [ليه, لما, تحب, حد, من, قلبك, ...] - `Segmentation`: [ليه, لما, تحب, حد, من, قلب+ك, ...] - `POS`: [PART, PART, V, NOUN, PREP, NOUN+PRON, ...]
fold和subfold字段是指Darwish等人使用的交叉验证拆分,可以使用此 script 生成。
词性标签由 Darwish et al. (2017) 针对现代标准阿拉伯语(MSA)开发的一组标签加上其他6个标签(2个方言特定标签和4个推文特定标签)组成。
Tag | Purpose | Description |
---|---|---|
ADV | MSA | Adverb |
ADJ | MSA | Adjective |
CONJ | MSA | Conjunction |
DET | MSA | Determiner |
NOUN | MSA | Noun |
NSUFF | MSA | Noun suffix |
NUM | MSA | Number |
PART | MSA | Particle |
PREP | MSA | Preposition |
PRON | MSA | Pronoun |
PUNC | MSA | Preposition |
V | MSA | Verb |
ABBREV | MSA | Abbreviation |
CASE | MSA | Alef of tanween fatha |
JUS | MSA | Jussification attached to verbs |
VSUFF | MSA | Verb Suffix |
FOREIGN | MSA | Non-Arabic as well as non-MSA words |
FUR_PART | MSA | Future particle "s" prefix and "swf" |
PROG_PART | Dialect | Progressive particle |
NEG_PART | Dialect | Negation particle |
HASH | Tweet | Hashtag |
EMOT | Tweet | Emoticon/Emoji |
MENTION | Tweet | Mention |
URL | Tweet | URL |
该数据集按方言进行了拆分。
Dialect | Tweets | Words |
---|---|---|
Egyptian (EGY) | 350 | 7481 |
Levantine (LEV) | 350 | 7221 |
Gulf (GLF) | 350 | 6767 |
Maghrebi (MGR) | 350 | 6400 |
该数据集的创建是为了解决缺乏针对阿拉伯方言的计算资源的问题。这些方言通常用于口语交流,而书面语通常使用现代标准阿拉伯语。然而,社交媒体为人们提供了使用书面方言的机会。
该数据集基于 Eldesouki et al. (2017) 和 Samih et al. (2017b) 的工作,他们最初收集了这些推文。
他们从2014年3月Twitter API返回的1.75亿条阿拉伯推文开始,使用“lang:ar”查询进行了筛选,并使用每种方言特有的作者位置和标记进行了过滤。最后,他们让每种方言的母语者选择了350条具有重口音的推文。
数据源语言制作者是谁?
数据源语言制作者是使用该方言词汇在推特上发布阿拉伯文推文的人,这些方言是根据 Mubarak and Darwish (2014) 确定的。
分割指南可在 https://alt.qcri.org/resources1/da_resources/seg-guidelines.pdf 获得。未提供标记指南,但Darwish等人指出进行了多轮质量控制和修订。
谁是注释者?
词性标签由每种方言的母语者进行注释。没有更多的信息可得知。
[需要更多信息]
Darwish等人发现,当训练集来自另一种方言时,马格里布数据集的准确性受到最大影响,相反,用马格里布方言进行训练对其他所有方言的结果产生了最差的影响。他们认为埃及、黎凡特和海湾方言可能更接近彼此,而马格里布方言与它们都最为不同。他们还发现,在培训现代标准阿拉伯语(MSA)和测试方言时,结果明显低于在培训方言和测试MSA时的结果。这表明方言变体应该是阿拉伯语自然语言处理应用中未来工作的重要考虑因素,尤其是在处理社交媒体文本时。
[需要更多信息]
[需要更多信息]
此数据集由Kareem Darwish,Hamdy Mubarak,Mohamed Eldesouki和Ahmed Abdelali与卡塔尔计算研究所(QCRI),Younes Samih和Laura Kallmeyer与杜塞尔多夫大学,Randah Alharbi和Walid Magdy与爱丁堡大学,以及Mohammed Attia与谷歌合作策划。未包含资金信息。
该数据集的许可证为 Apache License, Version 2.0 。
Kareem Darwish,Hamdy Mubarak,Ahmed Abdelali,Mohamed Eldesouki,Younes Samih,Randah Alharbi,Mohammed Attia,Walid Magdy和Laura Kallmeyer(2018):“多方言阿拉伯语词性标注:一种CRF方法”。第十一届语言资源和评估国际会议论文集(LREC 2018),2018年5月7日至12日,日本宫崎。
@InProceedings{DARWISH18.562, author = {Kareem Darwish ,Hamdy Mubarak ,Ahmed Abdelali ,Mohamed Eldesouki ,Younes Samih ,Randah Alharbi ,Mohammed Attia ,Walid Magdy and Laura Kallmeyer}, title = {Multi-Dialect Arabic POS Tagging: A CRF Approach}, booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {may}, date = {7-12}, location = {Miyazaki, Japan}, editor = {Nicoletta Calzolari (Conference chair) and Khalid Choukri and Christopher Cieri and Thierry Declerck and Sara Goggi and Koiti Hasida and Hitoshi Isahara and Bente Maegaard and Joseph Mariani and Hélène Mazo and Asuncion Moreno and Jan Odijk and Stelios Piperidis and Takenobu Tokunaga}, publisher = {European Language Resources Association (ELRA)}, address = {Paris, France}, isbn = {979-10-95546-00-9}, language = {english} }
感谢 @mcmillanmajora 添加了此数据集。