数据集:

csebuetnlp/BanglaParaphrase

任务:

文生文

语言:

bn

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2210.05109
英文

"BanglaParaphrase" 数据集卡片

数据集概要

我们提供了 BanglaParaphrase 数据集,这是一个包含约466k个孟加拉语同义词对的高质量合成数据集。这些同义词对通过语义上的连贯性和句法上的多样性来保证高质量。

支持的任务和排行榜

More information needed

语言

  • 孟加拉语

加载数据集

from datasets import load_dataset

from datasets import load_dataset

ds = load_dataset("csebuetnlp/BanglaParaphrase")

数据集结构

数据实例

下面以JSON格式给出数据集中train部分的一个例子。

{
"source": "বেশিরভাগ সময় প্রকৃতির দয়ার ওপরেই বেঁচে থাকতেন উপজাতিরা।", 
"target": "বেশিরভাগ সময়ই উপজাতিরা প্রকৃতির দয়ার উপর নির্ভরশীল ছিল।"
}

数据字段

  • 'source':表示源句子的字符串。
  • 'target':表示目标句子的字符串。

数据切分

数据集中train-dev-test示例计数如下:

Language ISO 639-1 Code Train Validation Test
Bengali bn 419, 967 233, 31 233, 32

数据集创建

策划理由

More information needed

原始数据

Roar Bangla

初始数据收集和规范化

Detailed in the paper

源语言产生者是谁?

Detailed in the paper

注释

Detailed in the paper

注释过程

Detailed in the paper

注释者是谁?

Detailed in the paper

个人和敏感信息

More information needed

使用数据的注意事项

数据的社会影响

More information needed

对偏见的讨论

More information needed

其他已知限制

More information needed

附加信息

数据集策划人

More information needed

许可信息

本仓库的内容仅限于非商业研究目的,数据集内容的版权属于原始版权所有者。

引用信息

@article{akil2022banglaparaphrase,
  title={BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset},
  author={Akil, Ajwad and Sultana, Najrin and Bhattacharjee, Abhik and Shahriyar, Rifat},
  journal={arXiv preprint arXiv:2210.05109},
  year={2022}
}

贡献