数据集:

csebuetnlp/squad_bn

英文

squad_bn 的数据集卡

数据集摘要

这是一个用于孟加拉语的问答(QA)数据集,从 SQuAD 2.0 TyDI-QA 数据集中筛选出来,并使用最先进的英文到孟加拉语翻译模型 here 进行了翻译。

支持的任务和排行榜

More information needed

语言

  • 孟加拉语

使用情况

from datasets import load_dataset
dataset = load_dataset("csebuetnlp/squad_bn")

数据集结构

数据实例

下面以JSON格式给出了数据集中的一个例子。

{
  "title": "শেখ মুজিবুর রহমান",
  "paragraphs": [
      {
          "qas": [
              {
                  "answers": [
                      {
                          "answer_start": 19,
                          "text": "১৭ মার্চ ১৯২০"
                      }
                  ],
                  "id": "bengali--981248442377505718-0-2649",
                  "question": "শেখ মুজিবুর রহমান কবে জন্মগ্রহণ করেন ?"
              }
          ],
          "context": "শেখ মুজিবুর রহমান (১৭ মার্চ ১৯২০ - ১৫ আগস্ট ১৯৭৫) বাংলাদেশের প্রথম রাষ্ট্রপতি ও ভারতীয় উপমহাদেশের একজন অন্যতম প্রভাবশালী রাজনৈতিক ব্যক্তিত্ব যিনি বাঙালীর অধিকার রক্ষায় ব্রিটিশ ভারত থেকে ভারত বিভাজন আন্দোলন এবং পরবর্তীতে  পূর্ব পাকিস্তান থেকে বাংলাদেশ প্রতিষ্ঠার সংগ্রামে নেতৃত্ব প্রদান করেন। প্রাচীন বাঙ্গালি সভ্যতার আধুনিক স্থপতি হিসাবে শেখ মুজিবুর রহমানকে বাংলাদেশের জাতির জনক বা জাতির পিতা বলা হয়ে থাকে। তিনি মাওলানা আব্দুল হামিদ খান ভাসানী প্রতিষ্ঠিত আওয়ামী লীগের সভাপতি, বাংলাদেশের প্রথম রাষ্ট্রপতি এবং পরবর্তীতে এদেশের প্রধানমন্ত্রীর দায়িত্ব পালন করেন। জনসাধারণের কাছে তিনি শেখ মুজিব এবং শেখ সাহেব হিসাবে বেশি পরিচিত এবং তার উপাধি বঙ্গবন্ধু। তার কন্যা শেখ হাসিনা বাংলাদেশ আওয়ামী লীগের বর্তমান সভানেত্রী এবং বাংলাদেশের বর্তমান প্রধানমন্ত্রী।"
      }
  ]
}

数据字段

数据字段如下:

  • id:一个字符串特征。
  • title:一个字符串特征。
  • context:一个字符串特征。
  • question:一个字符串特征。
  • answers:包含以下内容的字典特征:
    • text:一个字符串特征。
    • answer_start:一个int32特征。

数据拆分

split count
train 127771
validation 2502
test 2504

数据集创建

对于训练集,我们使用引入的英文到孟加拉语翻译模型 here 将完整的 SQuAD 2.0 数据集进行了翻译。由于在自动翻译过程中可能存在错误的可能性,我们使用翻译和原始句子的相似度计算了它们的相似度。如果所有组成句子的相似度得分超过0.7,则接受该数据点。

由于 TyDI-QA Gold Passage 任务保证给定的上下文包含答案,并且我们希望将我们的 QA 任务类比于 SQuAD 2.0,因此我们还考虑了 Passage selection 任务中没有给定问题答案的示例。我们将 TyDI-QA 训练集和验证集(可公开获取)中产生的示例均匀分配到测试集和验证集。

策划原因

More information needed

源数据

SQuAD 2.0 TyDi-QA

Initial Data Collection and Normalization

More information needed

谁是源语言的制作者?

More information needed

注释

More information needed

注释过程

More information needed

谁是注释者?

More information needed

个人和敏感信息

More information needed

使用数据的注意事项

数据的社会影响

More information needed

偏见讨论

More information needed

其他已知限制

More information needed

其他信息

数据集策划者

More information needed

许可信息

本存储库的内容仅限于非商业研究目的,受制于 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 的限制。数据集内容的版权属于原始版权持有人。

引用信息

如果您使用该数据集,请引用以下论文:

@misc{bhattacharjee2021banglabert,
      title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding},
      author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar},
      year={2021},
      eprint={2101.00204},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @abhik1505040 @Tahmid 添加了这个数据集。