t5-base-standard-bahasa-cased
Malay的预训练T5基准标准语言模型。
预训练语料库
t5-base-standard-bahasa-cased模型在多个任务上进行了预训练。以下是我们训练的任务列表,
在马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会和翻译的The Pile上进行的语言屏蔽任务。 在马来语新闻上进行新闻标题预测。 在马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会和翻译的The Pile上进行下一个句子预测。 翻译的QA自然语言问答。 在翻译的SNLI和翻译的MNLI上进行文本相似性任务。 英文-马来语翻译。 马来语-英文翻译。 摘要生成。 知识图谱三元组生成。 改写。 准备步骤可以在
https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare
中复现。
预训练详细信息
支持的前缀
soalan: {string} ,使用自然问答进行训练。 ringkasan: {string} ,用于摘要生成。 tajuk: {string} ,用于摘要标题。 parafrasa: {string} ,用于摘要改写。 terjemah Inggeris ke Melayu: {string} ,用于英文-马来语翻译。 terjemah Melayu ke Inggeris: {string} ,用于马来语-英文翻译。 grafik pengetahuan: {string} ,用于将马来语文本转化为英文知识图谱三元组的格式。 ayat1: {string1} ayat2: {string2} ,语义相似性。