数据集:
csebuetnlp/squad_bn
任务:
问答语言:
bn计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
machine-generated源数据集:
extended许可:
cc-by-nc-sa-4.0这是一个用于孟加拉语的问答(QA)数据集,从 SQuAD 2.0 、 TyDI-QA 数据集中筛选出来,并使用最先进的英文到孟加拉语翻译模型 here 进行了翻译。
from datasets import load_dataset dataset = load_dataset("csebuetnlp/squad_bn")
下面以JSON格式给出了数据集中的一个例子。
{ "title": "শেখ মুজিবুর রহমান", "paragraphs": [ { "qas": [ { "answers": [ { "answer_start": 19, "text": "১৭ মার্চ ১৯২০" } ], "id": "bengali--981248442377505718-0-2649", "question": "শেখ মুজিবুর রহমান কবে জন্মগ্রহণ করেন ?" } ], "context": "শেখ মুজিবুর রহমান (১৭ মার্চ ১৯২০ - ১৫ আগস্ট ১৯৭৫) বাংলাদেশের প্রথম রাষ্ট্রপতি ও ভারতীয় উপমহাদেশের একজন অন্যতম প্রভাবশালী রাজনৈতিক ব্যক্তিত্ব যিনি বাঙালীর অধিকার রক্ষায় ব্রিটিশ ভারত থেকে ভারত বিভাজন আন্দোলন এবং পরবর্তীতে পূর্ব পাকিস্তান থেকে বাংলাদেশ প্রতিষ্ঠার সংগ্রামে নেতৃত্ব প্রদান করেন। প্রাচীন বাঙ্গালি সভ্যতার আধুনিক স্থপতি হিসাবে শেখ মুজিবুর রহমানকে বাংলাদেশের জাতির জনক বা জাতির পিতা বলা হয়ে থাকে। তিনি মাওলানা আব্দুল হামিদ খান ভাসানী প্রতিষ্ঠিত আওয়ামী লীগের সভাপতি, বাংলাদেশের প্রথম রাষ্ট্রপতি এবং পরবর্তীতে এদেশের প্রধানমন্ত্রীর দায়িত্ব পালন করেন। জনসাধারণের কাছে তিনি শেখ মুজিব এবং শেখ সাহেব হিসাবে বেশি পরিচিত এবং তার উপাধি বঙ্গবন্ধু। তার কন্যা শেখ হাসিনা বাংলাদেশ আওয়ামী লীগের বর্তমান সভানেত্রী এবং বাংলাদেশের বর্তমান প্রধানমন্ত্রী।" } ] }
数据字段如下:
split | count |
---|---|
train | 127771 |
validation | 2502 |
test | 2504 |
对于训练集,我们使用引入的英文到孟加拉语翻译模型 here 将完整的 SQuAD 2.0 数据集进行了翻译。由于在自动翻译过程中可能存在错误的可能性,我们使用翻译和原始句子的相似度计算了它们的相似度。如果所有组成句子的相似度得分超过0.7,则接受该数据点。
由于 TyDI-QA Gold Passage 任务保证给定的上下文包含答案,并且我们希望将我们的 QA 任务类比于 SQuAD 2.0,因此我们还考虑了 Passage selection 任务中没有给定问题答案的示例。我们将 TyDI-QA 训练集和验证集(可公开获取)中产生的示例均匀分配到测试集和验证集。
本存储库的内容仅限于非商业研究目的,受制于 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 的限制。数据集内容的版权属于原始版权持有人。
如果您使用该数据集,请引用以下论文:
@misc{bhattacharjee2021banglabert, title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding}, author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar}, year={2021}, eprint={2101.00204}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @abhik1505040 和 @Tahmid 添加了这个数据集。