数据集:
ai4bharat/IndicQuestionGeneration
IndicQuestionGeneration是IndicNLG套件发布的问题生成数据集。每个示例都有五个字段:id、squad_id、answer、context和question。我们使用11种语言创建了这个数据集,包括as、bn、gu、hi、kn、ml、mr、or、pa、ta、te。每种语言的示例完全相同,只是使用不同的语言。每种语言的示例数量为98,027个。
任务:问题生成
排行榜:目前该数据集没有排行榜。
以下是来自hi数据集的随机示例,以JSON格式给出。
{ "id": 8, "squad_id": "56be8e613aeaaa14008c90d3", "answer": "अमेरिकी फुटबॉल सम्मेलन", "context": "अमेरिकी फुटबॉल सम्मेलन (एएफसी) के चैंपियन डेनवर ब्रोंकोस ने नेशनल फुटबॉल कांफ्रेंस (एनएफसी) की चैंपियन कैरोलिना पैंथर्स को 24-10 से हराकर अपना तीसरा सुपर बाउल खिताब जीता।", "question": "एएफसी का मतलब क्या है?" }
以下是所有语言中每个拆分中的样本数。
语言 | ISO 639-1代码 | 训练 | 开发 | 测试 | ---------- | ---------- | ---------- | ---------- | ---------- |谢智司|公司负责人|负责领导|负责以前的数|计楠尤其是了收起努力OS分配得尤悠哇 |擦哇哇啊地方 |玩的我完全比撒,怕小犯法阿发 |额外因而护额非通有 |发到萨嘎齐到国足齐 |萨嘎切分我你自己萨嘎齐 |切尔费南多需要这到国足齐 |巴顿意思说的是收起努力OS分配得尤悠哇 |塞纳个GW放入之前互粉好平方米如剪影收费 |特哦不凡是犯法拿对方玩 |得越我我想你人分们多平米睡了噢的确方面那竟然非事故 |三鹿我文化事故南非附件 |
Squad数据集( https://rajpurkar.github.io/SQuAD-explorer/ )
初始数据收集和规范化 谁是源语言的生产者?[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该存储库的内容仅限于非商业研究目的,根据 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 进行限制。数据集内容的版权属于原始版权持有人。
如果您使用数据集、模型或代码模块,请引用以下论文:
@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437",