英文

"IndicHeadlineGeneration" 数据集卡

数据集概要

IndicHeadlineGeneration是作为IndicNLG Suite的一部分发布的新闻标题生成数据集。每个输入文档都与一个标题输出配对。我们使用十一种语言创建了这个数据集,包括as,bn,gu,hi,kn,ml,mr,or,pa,ta,te。该数据集的总大小为1.4M。

支持的任务和排行榜

任务:标题生成

排行榜:目前没有该数据集的排行榜。

语言

  • 阿萨姆语 (as)
  • 孟加拉语 (bn)
  • 古吉拉特语 (gu)
  • 卡纳达语 (kn)
  • 印地语 (hi)
  • 马拉雅拉姆语 (ml)
  • 马拉地语 (mr)
  • 奥利亚语 (or)
  • 旁遮普语 (pa)
  • 泰米尔语 (ta)
  • 泰卢固语 (te)

数据集结构

数据实例

下面是 hi 数据集的一个随机示例,以 JSON 格式给出。

{'id': '14',
 'input': "अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।अरियाना ग्रांडे नई दिल्लीः अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।वहीं इस वीडियो पर कमेंट्स की बाढ़ आ गई है।गाने में मीन गर्ल्स, ब्रिंग इट ऑन, लीगली ब्लॉंड और 13 गोइंग 30 के कुछ फेमस सीन्स को दिखाया गया है।गाने में क्रिस जैनर का कैमियो भी है।बता दें अभी कुछ महीने पहले ही अरियाना के एक्स ब्वॉयफ्रेंड मैक मिलर का 26 साल की उम्र में निधन हो गया था।इस खबर को सुनकर अरियाना टूट सी गई थीं।उन्होंने सोशल मीडिया पर पोस्ट कर कई बार अपनी भावनाएं व्यक्त की।अरियाना ग्रांडे और रैपर मैक मिलर ने करीब 2 साल तक एक दूसरे को डेट किया।मैक के निधन की वजह ड्रग्स की ओवरडोज बताई गई।दोनों की मुलाकात साल 2012 में हुई थी।दोनों ने एक कंसर्ट में साथ कई गानों पर परफॉर्म भी किया था।जिसके बाद दोनों एक दूसरे को डेट करने लगे लेकिन नशे की लत के कारण अरियाना ने उनसे ब्रेकअप कर लिया।पर देश-विदेश की ताजा और स्पेशल स्टोरी पढ़ते हुए अपने आप को रखिए अप-टू-डेट।के लिए क्लिक करें सिनेमा सेक्शन",
 'target': 'अरियाना ग्रांडे का नया गाना रिलीज, सोशल मीडिया पर वायरल',
 'url': 'https://www.indiatv.in/entertainment/hollywood-ariana-grande-shatters-24-hour-views-record-612835'
}

数据字段

  • id (string) : 唯一标识符。
  • input (string) : 输入的新闻文章。
  • target (string) : 新闻文章的标题输出。
  • url (string) : 新闻文章的来源网址。

数据拆分

以下是所有语言拆分的样本数。

语言 | ISO 639-1代码 | 训练集 | 开发集 | 测试集 | ---------- | ---------- | ---------- | ---------- | ---------- | 阿萨姆语 | as | 29,631 | 14,592 | 14,808 | 孟加拉语 | bn | 113,424 | 14,739 | 14,568 | 古吉拉特语 | gu | 199,972 | 31,270 | 31,215 | 印地语 | hi | 208,221 | 44,738 | 44,514 | 卡纳达语 | kn | 132,380 | 19,416 | 3,261 | 马拉雅拉姆语 | ml | 10,358 | 5,388 | 5,220 | 马拉地语 | mr | 114,042 | 14,253 | 14,340 | 奥利亚语 | or | 58,225 | 7,484 | 7,137 | 旁遮普语 | pa | 48,441 | 6,108 | 6,086 | 泰米尔语 | ta | 60,650 | 7,616 | 7,688 | 泰卢固语 | te | 21,352 | 2,690 | 2,675 |

数据集创建

理由

Detailed in the paper

源数据

对于印地语,使用了像 Dainik Bhaskar Naidunia NDTV Business Standard IndiaTV 等网络来源。对于其他语言,使用了修改过的 IndicGLUE 数据集。

初始数据收集和规范化

Detailed in the paper

谁是源语言的生成者?

Detailed in the paper

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

本仓库的内容仅限于非商业研究目的,符合 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 。数据集内容的版权属于原始版权持有人。

引用信息

如果您使用了任何数据集、模型或代码模块,请引用以下论文:

@inproceedings{Kumar2022IndicNLGSM,
  title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages},
  author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar},
  year={2022},
  url = "https://arxiv.org/abs/2203.05437",     

贡献者

Detailed in the paper