数据集:

igbo_monolingual

语言:

ig

计算机处理:

monolingual

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2004.00648
英文

Igbo Monolingual Dataset 数据集卡片

数据集概述

数据集是由单语 Igbo 句子组成的集合。

支持的任务和排行榜

[更多信息需要补充]

语言

Igbo (ig)

数据集结构

数据实例

这是来自 bb-igbo 配置的示例:

{'content': 'Ike Ekweremmadụ\n\nIke ịda jụụ otụ nkeji banyere oke ogbugbu na-eme n\'ala Naijiria agwụla Ekweremmadụ\n\nOsote onye-isi ndị ome-iwu Naịjirịa bụ Ike Ekweremadu ekwuola na ike agwụla ndị Sịnatị iji otu nkeji darajụụ akwanyere ndị egburu n\'ime oke ọgbaghara dị na Naịjirịa oge ọ bula.\n\nEkweremadu  katọrọ mwakpọ na ogbugbu ndị Naịjirịa aka ha dị ọcha nke ndị Fulani na-achị ehi mere, kwuo na ike agwụla ndị ome- iwu ịkwanyere ha ugwu n\'otu nkeji\'\n\nCheta n\'otu ịzụka gara-aga ka emere akwam ozu mmadụ ruru iri asaa egburu na Local Gọọmenti Logo na Guma nke Benue Steeti, e be ihe kariri mmadụ iri ise ka akụkọ kwuru n\'egburu na Taraba Steeti.\n\nEkweremadu gosiri iwe gbasara ogbugbu ndị mmadụ na nzukọ ndị ome-iwu n\'ụbọchị taa, kwuo na Naịjirịa ga-ebu ụzọ nwe udo na nchekwa, tupu e kwuowa okwu iwulite obodo.\n\nỌ sịrị:  "Ndị ome-iwu abụghị sọ ọsọ ndị ihe a metụtara, kama ndị Naịjirịa niile.\n\n\'Ike agwụla anyị iji otu nkeji dị jụụ maka nkwanye ugwu. Ihe anyị chọrọ bụ udo na nchekwa tupu echewa echịchị nwuli obodo."',
 'date': '2018-01-19T17:07:38Z',
 'description': "N'ihi oke ogbugbu ndị mmadụ na Naịjirịa gbagburu gburu, osota onyeisi ndị ome-iwu Naịjirịa bụ Ike Ekweremadu ekwuola na ihe Naịjiria chọrọ bụ nchekwa tara ọchịchị, tupu ekwuwa okwu ihe ọzọ.",
 'headline': 'Ekweremadu: Ike agwụla ndị ụlọ ome iwu',
 'source': 'https://www.bbc.com/igbo/42712250',
 'tags': [],
 'title': 'Ekweremadu: Ike agwụla ndị ụlọ ome iwu'}

数据字段

对于配置'eze_goes_to_school':

  • format, title, chapters

对于配置'bbc-igbo':

  • source, title, description, date(缺失日期值用空字符串替代), headline, content, tags(缺失标签用空列表替代)

对于配置'igbo-radio':

  • source, headline, author, date, description, content

对于配置'jw-ot-igbo':

  • format, title, chapters

对于配置'jw-nt-igbo':

  • format, title, chapters

对于配置'jw-books':

  • title, content, format, date(缺失日期值用空字符串替代)

对于配置'jw-teta':

  • title, content, format, date(缺失日期值用空字符串替代)

对于配置'jw-ulo_nche':

  • title, content, format, date(缺失日期值用空字符串替代)

对于配置'jw-ulo_nche_naamu':

  • title, content, format, date(缺失日期值用空字符串替代)

数据拆分

bbc-igbo eze_goes_to_school igbo-radio jw-books jw-nt-igbo jw-ot-igbo jw-teta jw-ulo_nche jw-ulo_nche_naamu
1297 1 440 48 27 39 37 55 88

数据集创建

理由

[更多信息需要补充]

源数据

初始数据收集和规范化

[更多信息需要补充]

源语言生成者是谁?

[更多信息需要补充]

注释

注释过程

[更多信息需要补充]

注释者是谁?

[更多信息需要补充]

个人和敏感信息

[更多信息需要补充]

使用数据时的注意事项

数据的社会影响

[更多信息需要补充]

偏见讨论

[更多信息需要补充]

其他已知限制

[更多信息需要补充]

附加信息

数据集创建者

[更多信息需要补充]

许可信息

[更多信息需要补充]

引用信息

@misc{ezeani2020igboenglish, title={Igbo-English Machine Translation: An Evaluation Benchmark}, author={Ignatius Ezeani and Paul Rayson and Ikechukwu Onyenwe and Chinedu Uchechukwu and Mark Hepple}, year={2020}, eprint={2004.00648}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献者

感谢 @purvimisal 添加了此数据集。