英文

t5-small-spanish-nahuatl

纳瓦特尔语是墨西哥使用最广泛的土著语言。然而,由于缺乏结构化数据,训练神经网络进行神经机器翻译任务具有挑战性。最受欢迎的数据集,如Axolot和bible-corpus,只包含约16,000个和约7,000个样本。此外,纳瓦特尔语有多个变种,使得这个任务更加困难。例如,可以在Axolot数据集中找到多达三种不同写法的单词。因此,我们利用T5文本到文本前缀训练策略来补偿数据的不足。我们首先训练多语言模型来学习西班牙语,然后再适应纳瓦特尔语。最终得到的T5 Transformer成功翻译短句子。最后,我们报告Chrf和BLEU结果。

模型描述

该模型是在来自网页的西班牙语和纳瓦特尔语句子上微调的T5 Transformer( t5-small )。使用'sep' py-elotl 进行数据集的规范化。

用法

from transformers import AutoModelForSeq2SeqLM
from transformers import AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained('hackathon-pln-es/t5-small-spanish-nahuatl')
tokenizer = AutoTokenizer.from_pretrained('hackathon-pln-es/t5-small-spanish-nahuatl')

model.eval()
sentence = 'muchas flores son blancas'
input_ids = tokenizer('translate Spanish to Nahuatl: ' + sentence, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
# outputs = miak xochitl istak
outputs = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]

方法

数据集

由于Axolotl语料库存在错位,我们选择了最佳样本(12,207个)。我们还使用了 bible-corpus (7,821个)。

Axolotl best aligned books
Anales de Tlatelolco
Diario
Documentos nauas de la Ciudad de México del siglo XVI
Historia de México narrada en náhuatl y español
La tinta negra y roja (antología de poesía náhuatl)
Memorial Breve (Libro las ocho relaciones)
Método auto-didáctico náhuatl-español
Nican Mopohua
Quinta Relación (Libro las ocho relaciones)
Recetario Nahua de Milpa Alta D.F
Testimonios de la antigua palabra
Trece Poetas del Mundo Azteca
Una tortillita nomás - Se taxkaltsin saj
Vida económica de Tenochtitlan

此外,我们从网络上收集了3,000个额外的样本以增加数据。

模型和训练

我们使用多语言T5-small进行两个训练阶段。这个模型的优点是可以处理不同的词汇和前缀。T5-small在不同的任务和语言(法语、罗马尼亚语、英语、德语)上进行了预训练。

训练阶段1(学习西班牙语)

在第一阶段的训练中,我们首先向模型引入西班牙语。目标是学习一种数据丰富的新语言(西班牙语),并不丢失之前的知识。我们使用了英语-西班牙语 Anki 数据集,其中包含118,964个文本对。训练模型直到收敛,添加前缀"Translate Spanish to English: "

训练阶段2(学习纳瓦特尔语)

我们使用预训练的西班牙语-英语模型来学习西班牙语-纳瓦特尔语。由于纳瓦特尔语对的数量有限,我们还从英语-西班牙语Anki数据集中添加了20,000个样本。这种两个任务的训练避免了过拟合,使模型更加鲁棒。

训练设置

我们使用批大小为16和学习率为2e-5的相同数据集训练模型660k步。

评估结果

我们在相同的505个验证纳瓦特尔语句子上对模型进行评估,以进行公平比较。最后,我们使用chrf和sacrebleu hugging face指标报告结果:

English-Spanish pretraining Validation loss BLEU Chrf
False 1.34 6.17 26.96
True 1.31 6.18 28.21

英语-西班牙语的预训练可以提高BLEU和Chrf,并加快收敛速度。评估结果可在 eval.ipynb notebook 上查看。

参考资料

  • Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2019. Exploring the limitsof transfer learning with a unified Text-to-Text transformer.

  • Ximena Gutierrez-Vasques, Gerardo Sierra, and Hernandez Isaac. 2016. Axolotl: a web accessible parallel corpus for Spanish-Nahuatl. In International Conference on Language Resources and Evaluation (LREC).

  • https://github.com/christos-c/bible-corpus

  • https://github.com/ElotlMX/py-elotl

团队成员