数据集:
ai4bharat/IndicHeadlineGeneration
计算机处理:
multilingual语言创建人:
found批注创建人:
no-annotation源数据集:
original for Hindi, and modified [IndicGLUE](https original+for+Hindi,+and+modified+[IndicGLUE](https预印本库:
arxiv:2203.05437许可:
cc-by-nc-4.0IndicHeadlineGeneration是作为IndicNLG Suite的一部分发布的新闻标题生成数据集。每个输入文档都与一个标题输出配对。我们使用十一种语言创建了这个数据集,包括as,bn,gu,hi,kn,ml,mr,or,pa,ta,te。该数据集的总大小为1.4M。
任务:标题生成
排行榜:目前没有该数据集的排行榜。
下面是 hi 数据集的一个随机示例,以 JSON 格式给出。
{'id': '14', 'input': "अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।अरियाना ग्रांडे नई दिल्लीः अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।वहीं इस वीडियो पर कमेंट्स की बाढ़ आ गई है।गाने में मीन गर्ल्स, ब्रिंग इट ऑन, लीगली ब्लॉंड और 13 गोइंग 30 के कुछ फेमस सीन्स को दिखाया गया है।गाने में क्रिस जैनर का कैमियो भी है।बता दें अभी कुछ महीने पहले ही अरियाना के एक्स ब्वॉयफ्रेंड मैक मिलर का 26 साल की उम्र में निधन हो गया था।इस खबर को सुनकर अरियाना टूट सी गई थीं।उन्होंने सोशल मीडिया पर पोस्ट कर कई बार अपनी भावनाएं व्यक्त की।अरियाना ग्रांडे और रैपर मैक मिलर ने करीब 2 साल तक एक दूसरे को डेट किया।मैक के निधन की वजह ड्रग्स की ओवरडोज बताई गई।दोनों की मुलाकात साल 2012 में हुई थी।दोनों ने एक कंसर्ट में साथ कई गानों पर परफॉर्म भी किया था।जिसके बाद दोनों एक दूसरे को डेट करने लगे लेकिन नशे की लत के कारण अरियाना ने उनसे ब्रेकअप कर लिया।पर देश-विदेश की ताजा और स्पेशल स्टोरी पढ़ते हुए अपने आप को रखिए अप-टू-डेट।के लिए क्लिक करें सिनेमा सेक्शन", 'target': 'अरियाना ग्रांडे का नया गाना रिलीज, सोशल मीडिया पर वायरल', 'url': 'https://www.indiatv.in/entertainment/hollywood-ariana-grande-shatters-24-hour-views-record-612835' }
以下是所有语言拆分的样本数。
语言 | ISO 639-1代码 | 训练集 | 开发集 | 测试集 | ---------- | ---------- | ---------- | ---------- | ---------- | 阿萨姆语 | as | 29,631 | 14,592 | 14,808 | 孟加拉语 | bn | 113,424 | 14,739 | 14,568 | 古吉拉特语 | gu | 199,972 | 31,270 | 31,215 | 印地语 | hi | 208,221 | 44,738 | 44,514 | 卡纳达语 | kn | 132,380 | 19,416 | 3,261 | 马拉雅拉姆语 | ml | 10,358 | 5,388 | 5,220 | 马拉地语 | mr | 114,042 | 14,253 | 14,340 | 奥利亚语 | or | 58,225 | 7,484 | 7,137 | 旁遮普语 | pa | 48,441 | 6,108 | 6,086 | 泰米尔语 | ta | 60,650 | 7,616 | 7,688 | 泰卢固语 | te | 21,352 | 2,690 | 2,675 |
对于印地语,使用了像 Dainik Bhaskar 、 Naidunia 、 NDTV 、 Business Standard 和 IndiaTV 等网络来源。对于其他语言,使用了修改过的 IndicGLUE 数据集。
初始数据收集和规范化
谁是源语言的生成者?[需要更多信息]
注释过程[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
本仓库的内容仅限于非商业研究目的,符合 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 。数据集内容的版权属于原始版权持有人。
如果您使用了任何数据集、模型或代码模块,请引用以下论文:
@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437",