英文

RoBERTa Tagalog Base

Tagalog RoBERTa经过改进,是我们之前Tagalog预训练Transformers的升级版。使用TLUnified进行训练,该语料库比菲律宾语更大、更广泛地覆盖了不同主题的预训练语料。这个模型是一个更大研究项目的一部分。我们开源这个模型,以便于更多菲律宾自然语言处理社区的使用。

这个模型是大小写敏感的。我们不发布大小写不敏感的RoBERTa模型。

引文

我们的论文中包含了所有的模型细节和训练设置。如果您在项目中使用了我们的模型或觉得它对您有用,请引用我们的工作:

@article{cruz2021improving,
  title={Improving Large-scale Language Models and Resources for Filipino},
  author={Jan Christian Blaise Cruz and Charibeth Cheng},
  journal={arXiv preprint arXiv:2111.06053},
  year={2021}
}

数据和其他资源

用于训练这个模型的数据,以及菲律宾语的其他基准数据集,可以在我的网站 https://blaisecruz.com 中找到。

联系方式

如果您有问题、疑虑,或者只是想就自然语言处理和低资源语言进行交流,可以通过我的工作邮箱me@blaisecruz.com与我联络。