数据集:
ai4bharat/IndicWikiBio
计算机处理:
multilingual语言创建人:
found批注创建人:
no-annotation源数据集:
none. Originally generated from www.wikimedia.org. none.+Originally+generated+from+www.wikimedia.org.预印本库:
arxiv:2203.05437许可:
cc-by-nc-4.0"IndicNLG Suite"发布的WikiBio数据集。每个示例有四个字段:id、infobox、序列化的infobox和summary。我们在包括as、bn、hi、kn、ml、or、pa、ta、te在内的九种语言中创建了这个数据集。数据集的总大小为57,426条。
任务:WikiBio
榜单:目前没有此数据集的榜单。
下面是来自hi数据集中一个随机示例的JSON格式。
{ "id": 26, "infobox": "name_1:सी॰\tname_2:एल॰\tname_3:रुआला\toffice_1:सांसद\toffice_2:-\toffice_3:मिजोरम\toffice_4:लोक\toffice_5:सभा\toffice_6:निर्वाचन\toffice_7:क्षेत्र\toffice_8:।\toffice_9:मिजोरम\tterm_1:2014\tterm_2:से\tterm_3:2019\tnationality_1:भारतीय", "serialized_infobox": "<TAG> name </TAG> सी॰ एल॰ रुआला <TAG> office </TAG> सांसद - मिजोरम लोक सभा निर्वाचन क्षेत्र । मिजोरम <TAG> term </TAG> 2014 से 2019 <TAG> nationality </TAG> भारतीय", "summary": "सी॰ एल॰ रुआला भारत की सोलहवीं लोक सभा के सांसद हैं।" }
以下是所有语言中每个分割中的样本数。
语言 | ISO 639-1 Code | 训练 | 测试 | 验证 | ---------- | ---------- | ---------- | ---------- | ---------- | 阿萨姆语 | as | 1,300 | 391 | 381 | 孟加拉语 | bn | 4,615 | 1,521 | 1,567 | 印地语 | hi | 5,684 | 1,919 | 1,853 | 卡纳达语 | kn | 1,188 | 389 | 383 | 马拉雅拉姆语 | ml | 5,620 | 1,835 | 1,896 | 奥里亚语 | or | 1,687 | 558 | 515 | 旁遮普语 | pa | 3,796 | 1,227 | 1,331 | 泰米尔语 | ta | 8,169 | 2,701 | 2,632 | 泰卢固语 | te | 2,594 | 854 | 820 |
None
Initial Data Collection and Normalization 谁是源语言的生产者?[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该存储库的内容仅限于非商业研究目的,受版权所有者的版权保护。
如果您使用任何数据集、模型或代码模块,请引用以下论文:
@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437",