RoBERTa Tagalog Large

Tagalog RoBERTa是我们之前Tagalog预训练Transformer模型的改进版。它是使用TLUnified进行训练的，TLUnified是一个更大、更多主题变化的菲律宾语预训练语料库。该模型是一个更大型研究项目的一部分。我们开源模型，以便菲律宾语自然语言处理社区更广泛地使用。

这个模型是一个大小写敏感的模型。我们不发布大小写不敏感的RoBERTa模型。

引用

有关模型细节和训练设置的所有信息都可以在我们的论文中找到。如果您在项目中使用我们的模型或发现它对您有用，请引用我们的工作：

@article{cruz2021improving,
  title={Improving Large-scale Language Models and Resources for Filipino},
  author={Jan Christian Blaise Cruz and Charibeth Cheng},
  journal={arXiv preprint arXiv:2111.06053},
  year={2021}
}

数据和其他资源

用于训练该模型的数据以及其他菲律宾语基准数据集可以在我的网站上找到： https://blaisecruz.com

联系方式

如果您有问题、疑虑，或者只是想聊一聊自然语言处理和低资源语言，您可以通过我的工作邮箱me@blaisecruz.com与我联系

作者:

Jan Christian Blaise Cruz

数据集大小:

2.61 GB