模型:
jcblaise/roberta-tagalog-base
Tagalog RoBERTa经过改进,是我们之前Tagalog预训练Transformers的升级版。使用TLUnified进行训练,该语料库比菲律宾语更大、更广泛地覆盖了不同主题的预训练语料。这个模型是一个更大研究项目的一部分。我们开源这个模型,以便于更多菲律宾自然语言处理社区的使用。
这个模型是大小写敏感的。我们不发布大小写不敏感的RoBERTa模型。
我们的论文中包含了所有的模型细节和训练设置。如果您在项目中使用了我们的模型或觉得它对您有用,请引用我们的工作:
@article{cruz2021improving, title={Improving Large-scale Language Models and Resources for Filipino}, author={Jan Christian Blaise Cruz and Charibeth Cheng}, journal={arXiv preprint arXiv:2111.06053}, year={2021} }
用于训练这个模型的数据,以及菲律宾语的其他基准数据集,可以在我的网站 https://blaisecruz.com 中找到。
如果您有问题、疑虑,或者只是想就自然语言处理和低资源语言进行交流,可以通过我的工作邮箱me@blaisecruz.com与我联络。