数据集:
ai4bharat/IndicSentenceSummarization
计算机处理:
multilingual语言创建人:
found批注创建人:
no-annotation源数据集:
original for Hindi, and modified [IndicGLUE](https original+for+Hindi,+and+modified+[IndicGLUE](https预印本库:
arxiv:2203.05437许可:
cc-by-nc-4.0"IndicSentenceSummarization" 是作为 IndicNLG Suite 的一部分发布的句子摘要数据集。每个输入句子都与一个作为摘要的输出相关联。我们使用11种语言创建了这个数据集,包括as、bn、gu、hi、kn、ml、mr、or、pa、ta、te。数据集的总大小为431K。
任务:句子摘要
排行榜:目前该数据集没有排行榜。
下面是 hi 数据集中的一个随机示例,以 JSON 格式给出。
{'id': '5', 'input': 'जम्मू एवं कश्मीर के अनंतनाग जिले में शनिवार को सुरक्षाबलों के साथ मुठभेड़ में दो आतंकवादियों को मार गिराया गया।', 'target': 'जम्मू-कश्मीर : सुरक्षाबलों के साथ मुठभेड़ में 2 आतंकवादी ढेर', 'url': 'https://www.indiatv.in/india/national-jammu-kashmir-two-millitant-killed-in-encounter-with-security-forces-574529' }
下面是各个语言所有拆分中的样本数量。
语言 | ISO 639-1 代码 | 训练集 | 验证集 | 测试集 |---------- | ---------- | ---------- | ---------- | ---------- |阿萨姆语 | as | 10,812 | 5,232 | 5,452 |孟加拉语 | bn | 17,035 | 2,355 | 2,384 |古吉拉特语 | gu | 54,788 | 8,720 | 8,460 |印地语 | hi | 78,876 | 16,935 | 16,835 |卡纳达语 | kn | 61,220 | 9,024 | 1,485 |马拉雅拉姆语 | ml | 2,855 | 1,520 | 1,580 |马拉地语 | mr | 27,066 | 3,249 | 3,309 |奥里亚语 | or | 12,065 | 1,539 | 1,440 |旁遮普语 | pa | 31,630 | 4,004 | 3,967 |泰米尔语 | ta | 23,098 | 2,874 | 2,948 |泰卢固语 | te | 7,119 | 878 | 862 |
这是 IndicHeadlineGeneration 数据集的修改子集。
初始化数据收集和规范化 谁是源语言的生产者?[需要更多信息]
注释过程[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
本仓库内容仅限于非商业研究目的,受 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 的版权保护。数据集内容的版权属于原始版权持有人。
如果您使用了任何数据集、模型或代码模块,请引用以下论文:
@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437",