数据集:

csebuetnlp/BanglaParaphrase

任务:

文生文

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2210.05109

其他:

conditional-text-generation paraphrase-generation

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

"BanglaParaphrase" 数据集卡片

数据集概要

我们提供了 BanglaParaphrase 数据集，这是一个包含约466k个孟加拉语同义词对的高质量合成数据集。这些同义词对通过语义上的连贯性和句法上的多样性来保证高质量。

支持的任务和排行榜

More information needed

语言

孟加拉语

加载数据集

from datasets import load_dataset

from datasets import load_dataset

ds = load_dataset("csebuetnlp/BanglaParaphrase")

数据集结构

数据实例

下面以JSON格式给出数据集中train部分的一个例子。

{
"source": "বেশিরভাগ সময় প্রকৃতির দয়ার ওপরেই বেঁচে থাকতেন উপজাতিরা।", 
"target": "বেশিরভাগ সময়ই উপজাতিরা প্রকৃতির দয়ার উপর নির্ভরশীল ছিল।"
}

数据字段

'source'：表示源句子的字符串。
'target'：表示目标句子的字符串。

数据切分

数据集中train-dev-test示例计数如下：

Language	ISO 639-1 Code	Train	Validation	Test
Bengali	bn	419, 967	233, 31	233, 32

数据集创建

策划理由

More information needed

原始数据

Roar Bangla

初始数据收集和规范化

Detailed in the paper

源语言产生者是谁？

Detailed in the paper

注释

Detailed in the paper

注释过程

Detailed in the paper

注释者是谁？

Detailed in the paper

个人和敏感信息

More information needed

使用数据的注意事项

附加信息

数据集策划人

More information needed

许可信息

引用信息

@article{akil2022banglaparaphrase,
  title={BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset},
  author={Akil, Ajwad and Sultana, Najrin and Bhattacharjee, Abhik and Shahriyar, Rifat},
  journal={arXiv preprint arXiv:2210.05109},
  year={2022}
}

贡献

作者:

csebuetnlp

数据集大小:

36.25 MB

"BanglaParaphrase" 数据集卡片

数据集概要

支持的任务和排行榜

语言

加载数据集

数据集结构

数据实例

数据字段

数据切分

数据集创建

策划理由

原始数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

对偏见的讨论

其他已知限制

附加信息

数据集策划人

许可信息

引用信息

贡献