英文

印尼版多语言T5 Transformer

这是一个较小的模型版本,只包含印尼语和部分英语嵌入。

在对其进行下游任务之前,需要对该模型进行微调。

在问题生成和问题回答任务中,fujian的idT5已经完成了微调,可在(网址)中获得。

论文: idT5: Indonesian Version of Multilingual T5 Transformer

作者:Mukhlish Fuadi,Adhi Dharma Wibawa,Surya Sumpeno

引用

@misc{https://doi.org/10.48550/arxiv.2302.00856,
  doi = {10.48550/ARXIV.2302.00856},  
  url = {https://arxiv.org/abs/2302.00856},  
  author = {Fuadi, Mukhlish and Wibawa, Adhi Dharma and Sumpeno, Surya},  
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7},  
  title = {idT5: Indonesian Version of Multilingual T5 Transformer},  
  publisher = {arXiv},  
  year = {2023}
}

摘要

印度尼西亚语是全球使用人数接近2亿的第十大最常用语言,但在自然语言处理(NLP)研究中却受到了较少关注。语言资源的稀缺性妨碍了以前在印尼尼西亚语上的工作。Transformer是一种新的架构,在NLP领域迅速占据主导地位,超过了卷积和循环神经网络等替代方法。T5(Text-to-Text Transfer Transformer)是一种将所有基于文本的语言问题转化为文本-to-文本格式以供英语使用的Transformer模型。多语言变量是mT5(多语言T5),已在许多语言的NLP任务上展现出良好的结果。然而,该多语言模型的规模对于其在实际生产应用中的应用是一个缺点,有时只需要一种语言。在本研究中,mT5模型被改编为只适用于印尼尼西亚语的模型,得到了一个针对印尼尼西亚语的预训练T5模型并具有较小的尺寸。为了进行性能比较,我们使用相同的机制和数据集,将这个模型和mT5模型对情感分析(SA)、问题生成(QG)和问题回答(QA)任务进行了微调。基于我们的模型的微调模型在SA上获得了77.18%的准确率,比基于mT5模型的准确率高出8%,在QG和QA上几乎获得了与基于mT5模型几乎相同的得分。结果证实了可以产生一个较小的预训练模型,同时可以降低模型大小高达58%,而保持相当的产出。此外,所得模型占用较少的内存,加载速度更快,推理时间更短。