注意事项 该模型已被弃用。我们有更大的语料库训练出的新的菲律宾语Transformer模型可供使用。为了获得更好的性能,请改用 jcblaise/roberta-tagalog-base 或 jcblaise/roberta-tagalog-large 代替此模型。
在互联网上收集和整理的大型预处理文本语料库上训练的菲律宾语版本的BERT模型。这个模型是一个更大的研究项目的一部分。我们将该模型开源,以促进菲律宾语自然语言处理社区的更广泛使用。
所有模型细节和训练设置可在我们的论文中找到。如果您在您的项目中使用了我们的模型或发现它有用,请引用我们的工作:
@article{cruz2020establishing, title={Establishing Baselines for Text Classification in Low-Resource Languages}, author={Cruz, Jan Christian Blaise and Cheng, Charibeth}, journal={arXiv preprint arXiv:2005.02068}, year={2020} } @article{cruz2019evaluating, title={Evaluating Language Model Finetuning Techniques for Low-resource Languages}, author={Cruz, Jan Christian Blaise and Cheng, Charibeth}, journal={arXiv preprint arXiv:1907.00409}, year={2019} }
用于训练此模型的数据以及其他菲律宾语基准数据集可以在我的网站 https://blaisecruz.com 上找到
如果您有问题、疑虑,或者只想讨论自然语言处理和低资源语言,您可以通过我的工作邮箱me@blaisecruz.com与我联系