模型:

mesolitica/t5-base-standard-bahasa-cased

英文

t5-base-standard-bahasa-cased

Malay的预训练T5基准标准语言模型。

预训练语料库

t5-base-standard-bahasa-cased模型在多个任务上进行了预训练。以下是我们训练的任务列表,

  • 在马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会和翻译的The Pile上进行的语言屏蔽任务。
  • 在马来语新闻上进行新闻标题预测。
  • 在马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会和翻译的The Pile上进行下一个句子预测。
  • 翻译的QA自然语言问答。
  • 在翻译的SNLI和翻译的MNLI上进行文本相似性任务。
  • 英文-马来语翻译。
  • 马来语-英文翻译。
  • 摘要生成。
  • 知识图谱三元组生成。
  • 改写。
  • 准备步骤可以在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 中复现。

    预训练详细信息

    支持的前缀

  • soalan: {string} ,使用自然问答进行训练。
  • ringkasan: {string} ,用于摘要生成。
  • tajuk: {string} ,用于摘要标题。
  • parafrasa: {string} ,用于摘要改写。
  • terjemah Inggeris ke Melayu: {string} ,用于英文-马来语翻译。
  • terjemah Melayu ke Inggeris: {string} ,用于马来语-英文翻译。
  • grafik pengetahuan: {string} ,用于将马来语文本转化为英文知识图谱三元组的格式。
  • ayat1: {string1} ayat2: {string2} ,语义相似性。