模型:
hackathon-pln-es/t5-small-spanish-nahuatl
任务:
翻译许可:
apache-2.0纳瓦特尔语是墨西哥使用最广泛的土著语言。然而,由于缺乏结构化数据,训练神经网络进行神经机器翻译任务具有挑战性。最受欢迎的数据集,如Axolot和bible-corpus,只包含约16,000个和约7,000个样本。此外,纳瓦特尔语有多个变种,使得这个任务更加困难。例如,可以在Axolot数据集中找到多达三种不同写法的单词。因此,我们利用T5文本到文本前缀训练策略来补偿数据的不足。我们首先训练多语言模型来学习西班牙语,然后再适应纳瓦特尔语。最终得到的T5 Transformer成功翻译短句子。最后,我们报告Chrf和BLEU结果。
该模型是在来自网页的西班牙语和纳瓦特尔语句子上微调的T5 Transformer( t5-small )。使用'sep' py-elotl 进行数据集的规范化。
from transformers import AutoModelForSeq2SeqLM from transformers import AutoTokenizer model = AutoModelForSeq2SeqLM.from_pretrained('hackathon-pln-es/t5-small-spanish-nahuatl') tokenizer = AutoTokenizer.from_pretrained('hackathon-pln-es/t5-small-spanish-nahuatl') model.eval() sentence = 'muchas flores son blancas' input_ids = tokenizer('translate Spanish to Nahuatl: ' + sentence, return_tensors='pt').input_ids outputs = model.generate(input_ids) # outputs = miak xochitl istak outputs = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
由于Axolotl语料库存在错位,我们选择了最佳样本(12,207个)。我们还使用了 bible-corpus (7,821个)。
Axolotl best aligned books |
---|
Anales de Tlatelolco |
Diario |
Documentos nauas de la Ciudad de México del siglo XVI |
Historia de México narrada en náhuatl y español |
La tinta negra y roja (antología de poesía náhuatl) |
Memorial Breve (Libro las ocho relaciones) |
Método auto-didáctico náhuatl-español |
Nican Mopohua |
Quinta Relación (Libro las ocho relaciones) |
Recetario Nahua de Milpa Alta D.F |
Testimonios de la antigua palabra |
Trece Poetas del Mundo Azteca |
Una tortillita nomás - Se taxkaltsin saj |
Vida económica de Tenochtitlan |
此外,我们从网络上收集了3,000个额外的样本以增加数据。
我们使用多语言T5-small进行两个训练阶段。这个模型的优点是可以处理不同的词汇和前缀。T5-small在不同的任务和语言(法语、罗马尼亚语、英语、德语)上进行了预训练。
在第一阶段的训练中,我们首先向模型引入西班牙语。目标是学习一种数据丰富的新语言(西班牙语),并不丢失之前的知识。我们使用了英语-西班牙语 Anki 数据集,其中包含118,964个文本对。训练模型直到收敛,添加前缀"Translate Spanish to English: "
我们使用预训练的西班牙语-英语模型来学习西班牙语-纳瓦特尔语。由于纳瓦特尔语对的数量有限,我们还从英语-西班牙语Anki数据集中添加了20,000个样本。这种两个任务的训练避免了过拟合,使模型更加鲁棒。
我们使用批大小为16和学习率为2e-5的相同数据集训练模型660k步。
我们在相同的505个验证纳瓦特尔语句子上对模型进行评估,以进行公平比较。最后,我们使用chrf和sacrebleu hugging face指标报告结果:
English-Spanish pretraining | Validation loss | BLEU | Chrf |
---|---|---|---|
False | 1.34 | 6.17 | 26.96 |
True | 1.31 | 6.18 | 28.21 |
英语-西班牙语的预训练可以提高BLEU和Chrf,并加快收敛速度。评估结果可在 eval.ipynb notebook 上查看。
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2019. Exploring the limitsof transfer learning with a unified Text-to-Text transformer.
Ximena Gutierrez-Vasques, Gerardo Sierra, and Hernandez Isaac. 2016. Axolotl: a web accessible parallel corpus for Spanish-Nahuatl. In International Conference on Language Resources and Evaluation (LREC).