数据集:
csebuetnlp/BanglaParaphrase
任务:
文生文语言:
bn计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:2210.05109许可:
cc-by-nc-sa-4.0我们提供了 BanglaParaphrase 数据集,这是一个包含约466k个孟加拉语同义词对的高质量合成数据集。这些同义词对通过语义上的连贯性和句法上的多样性来保证高质量。
from datasets import load_dataset from datasets import load_dataset ds = load_dataset("csebuetnlp/BanglaParaphrase")
下面以JSON格式给出数据集中train部分的一个例子。
{ "source": "বেশিরভাগ সময় প্রকৃতির দয়ার ওপরেই বেঁচে থাকতেন উপজাতিরা।", "target": "বেশিরভাগ সময়ই উপজাতিরা প্রকৃতির দয়ার উপর নির্ভরশীল ছিল।" }
数据集中train-dev-test示例计数如下:
Language | ISO 639-1 Code | Train | Validation | Test |
---|---|---|---|---|
Bengali | bn | 419, 967 | 233, 31 | 233, 32 |
本仓库的内容仅限于非商业研究目的,数据集内容的版权属于原始版权所有者。
@article{akil2022banglaparaphrase, title={BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset}, author={Akil, Ajwad and Sultana, Najrin and Bhattacharjee, Abhik and Shahriyar, Rifat}, journal={arXiv preprint arXiv:2210.05109}, year={2022} }