英文

"IndicQuestionGeneration"数据集卡

数据集概要

IndicQuestionGeneration是IndicNLG套件发布的问题生成数据集。每个示例都有五个字段:id、squad_id、answer、context和question。我们使用11种语言创建了这个数据集,包括as、bn、gu、hi、kn、ml、mr、or、pa、ta、te。每种语言的示例完全相同,只是使用不同的语言。每种语言的示例数量为98,027个。

支持的任务和排行榜

任务:问题生成

排行榜:目前该数据集没有排行榜。

语言

  • 孟加拉语(as)
  • 孟加拉语(bn)
  • 古吉拉特语(gu)
  • 卡纳达语(kn)
  • 印地语(hi)
  • 马拉雅拉姆语(ml)
  • 马拉地语(mr)
  • 奥里亚语(or)
  • 旁遮普语(pa)
  • 泰米尔语(ta)
  • 泰卢固语(te)

数据集结构

数据实例

以下是来自hi数据集的随机示例,以JSON格式给出。

{
"id": 8, 
"squad_id": "56be8e613aeaaa14008c90d3", 
"answer": "अमेरिकी फुटबॉल सम्मेलन", 
"context": "अमेरिकी फुटबॉल सम्मेलन (एएफसी) के चैंपियन डेनवर ब्रोंकोस ने नेशनल फुटबॉल कांफ्रेंस (एनएफसी) की चैंपियन कैरोलिना पैंथर्स को 24-10 से हराकर अपना तीसरा सुपर बाउल खिताब जीता।", 
"question": "एएफसी का मतलब क्या है?"
}

数据字段

  • id(字符串):唯一标识符。
  • squad_id(字符串):Squad数据集中的唯一标识符。
  • answer(字符串):答案作为两个输入之一。
  • context(字符串):上下文,另一个输入。
  • question(字符串):问题,输出结果。

数据拆分

以下是所有语言中每个拆分中的样本数。

语言 | ISO 639-1代码 | 训练 | 开发 | 测试 | ---------- | ---------- | ---------- | ---------- | ---------- |谢智司|公司负责人|负责领导|负责以前的数|计楠尤其是了收起努力OS分配得尤悠哇 |擦哇哇啊地方 |玩的我完全比撒,怕小犯法阿发 |额外因而护额非通有 |发到萨嘎齐到国足齐 |萨嘎切分我你自己萨嘎齐 |切尔费南多需要这到国足齐 |巴顿意思说的是收起努力OS分配得尤悠哇 |塞纳个GW放入之前互粉好平方米如剪影收费 |特哦不凡是犯法拿对方玩 |得越我我想你人分们多平米睡了噢的确方面那竟然非事故 |三鹿我文化事故南非附件 |

数据集创建

策展理由

Detailed in the paper

源数据

Squad数据集( https://rajpurkar.github.io/SQuAD-explorer/

初始数据收集和规范化

Detailed in the paper

谁是源语言的生产者?

Detailed in the paper

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展者

[需要更多信息]

许可信息

该存储库的内容仅限于非商业研究目的,根据 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 进行限制。数据集内容的版权属于原始版权持有人。

引用信息

如果您使用数据集、模型或代码模块,请引用以下论文:

@inproceedings{Kumar2022IndicNLGSM,
  title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages},
  author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar},
  year={2022},
  url = "https://arxiv.org/abs/2203.05437",     

贡献

Detailed in the paper