banglat5_banglaparaphrase

该存储库包含在 BanglaParaphrase 数据集上微调的BanglaT5模型的预训练检查点。这是一个按照 "Span Corruption" 目标进行预训练的序列到序列变换器模型。使用此检查点进行微调的模型在数据集上取得了竞争性的结果。

请参考 BanglaNLG 的官方GitHub存储库中的脚本进行微调和推理。

注：此模型使用特定的标准化流水线进行预训练，该流水线可在 here 中找到。官方GitHub存储库中的所有微调脚本默认使用此标准化。如果您需要将预训练模型调整为不同的任务，请确保在分词之前使用此流水线对文本单元进行标准化以获得最佳结果。以下是一个基本示例:

在transformers中使用该模型

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from normalizer import normalize # pip install git+https://github.com/csebuetnlp/normalizer

model = AutoModelForSeq2SeqLM.from_pretrained("csebuetnlp/banglat5_banglaparaphrase")
tokenizer = AutoTokenizer.from_pretrained("csebuetnlp/banglat5_banglaparaphrase", use_fast=False)

input_sentence = ""
input_ids = tokenizer(normalize(input_sentence), return_tensors="pt").input_ids
generated_tokens = model.generate(input_ids)
decoded_tokens = tokenizer.batch_decode(generated_tokens)[0]

print(decoded_tokens)

基准测试

监督微调

Test Set	Model	sacreBLEU	ROUGE-L	PINC	BERTScore	BERT-iBLEU
1236321	1237321 1238321 1239321	32.8 5.60 4.90	63.58 35.61 33.66	74.40 80.26 82.10	94.80 91.50 91.10	92.18 91.16 90.95
12310321	BanglaT5 IndicBART IndicBARTSS	11.0 12.0 10.7	19.99 21.58 20.59	74.50 76.83 77.60	94.80 93.30 93.10	87.738 90.65 90.54

数据集可在以下链接中找到:

BanglaParaphrase

引用

如果您使用此模型，请引用以下论文:

@article{akil2022banglaparaphrase,
  title={BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset},
  author={Akil, Ajwad and Sultana, Najrin and Bhattacharjee, Abhik and Shahriyar, Rifat},
  journal={arXiv preprint arXiv:2210.05109},
  year={2022}
}

作者:

BUET CSE NLP Group

数据集大小:

945.47 MB