数据集:

csebuetnlp/squad_bn

任务:

问答

子任务:

open-domain-qa extractive-qa

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

extended

预印本库:

arxiv:2101.00204 arxiv:2007.01852 arxiv:1606.05250

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

squad_bn 的数据集卡

数据集摘要

这是一个用于孟加拉语的问答（QA）数据集，从 SQuAD 2.0 、 TyDI-QA 数据集中筛选出来，并使用最先进的英文到孟加拉语翻译模型 here 进行了翻译。

支持的任务和排行榜

More information needed

语言

孟加拉语

使用情况

from datasets import load_dataset
dataset = load_dataset("csebuetnlp/squad_bn")

数据集结构

数据实例

下面以JSON格式给出了数据集中的一个例子。

{
  "title": "শেখ মুজিবুর রহমান",
  "paragraphs": [
      {
          "qas": [
              {
                  "answers": [
                      {
                          "answer_start": 19,
                          "text": "১৭ মার্চ ১৯২০"
                      }
                  ],
                  "id": "bengali--981248442377505718-0-2649",
                  "question": "শেখ মুজিবুর রহমান কবে জন্মগ্রহণ করেন ?"
              }
          ],
          "context": "শেখ মুজিবুর রহমান (১৭ মার্চ ১৯২০ - ১৫ আগস্ট ১৯৭৫) বাংলাদেশের প্রথম রাষ্ট্রপতি ও ভারতীয় উপমহাদেশের একজন অন্যতম প্রভাবশালী রাজনৈতিক ব্যক্তিত্ব যিনি বাঙালীর অধিকার রক্ষায় ব্রিটিশ ভারত থেকে ভারত বিভাজন আন্দোলন এবং পরবর্তীতে  পূর্ব পাকিস্তান থেকে বাংলাদেশ প্রতিষ্ঠার সংগ্রামে নেতৃত্ব প্রদান করেন। প্রাচীন বাঙ্গালি সভ্যতার আধুনিক স্থপতি হিসাবে শেখ মুজিবুর রহমানকে বাংলাদেশের জাতির জনক বা জাতির পিতা বলা হয়ে থাকে। তিনি মাওলানা আব্দুল হামিদ খান ভাসানী প্রতিষ্ঠিত আওয়ামী লীগের সভাপতি, বাংলাদেশের প্রথম রাষ্ট্রপতি এবং পরবর্তীতে এদেশের প্রধানমন্ত্রীর দায়িত্ব পালন করেন। জনসাধারণের কাছে তিনি শেখ মুজিব এবং শেখ সাহেব হিসাবে বেশি পরিচিত এবং তার উপাধি বঙ্গবন্ধু। তার কন্যা শেখ হাসিনা বাংলাদেশ আওয়ামী লীগের বর্তমান সভানেত্রী এবং বাংলাদেশের বর্তমান প্রধানমন্ত্রী।"
      }
  ]
}

数据字段

数据字段如下：

id：一个字符串特征。
title：一个字符串特征。
context：一个字符串特征。
question：一个字符串特征。
answers：包含以下内容的字典特征：
- text：一个字符串特征。
- answer_start：一个int32特征。

数据拆分

split	count
train	127771
validation	2502
test	2504

数据集创建

对于训练集，我们使用引入的英文到孟加拉语翻译模型 here 将完整的 SQuAD 2.0 数据集进行了翻译。由于在自动翻译过程中可能存在错误的可能性，我们使用翻译和原始句子的相似度计算了它们的相似度。如果所有组成句子的相似度得分超过0.7，则接受该数据点。

由于 TyDI-QA Gold Passage 任务保证给定的上下文包含答案，并且我们希望将我们的 QA 任务类比于 SQuAD 2.0，因此我们还考虑了 Passage selection 任务中没有给定问题答案的示例。我们将 TyDI-QA 训练集和验证集（可公开获取）中产生的示例均匀分配到测试集和验证集。

策划原因

More information needed

源数据

SQuAD 2.0 、 TyDi-QA

Initial Data Collection and Normalization

More information needed

谁是源语言的制作者？

More information needed

注释

More information needed

注释过程

More information needed

谁是注释者？

More information needed

个人和敏感信息

More information needed

使用数据的注意事项

其他信息

数据集策划者

More information needed

许可信息

本存储库的内容仅限于非商业研究目的，受制于 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 的限制。数据集内容的版权属于原始版权持有人。

引用信息

如果您使用该数据集，请引用以下论文：

@misc{bhattacharjee2021banglabert,
      title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding},
      author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar},
      year={2021},
      eprint={2101.00204},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @abhik1505040 和 @Tahmid 添加了这个数据集。

作者:

csebuetnlp

数据集大小:

8.06 MB

squad_bn 的数据集卡

数据集摘要

支持的任务和排行榜

语言

使用情况

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划原因

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献