废止通知 此模型已被废弃。我们已经有使用更大的语料库训练的新菲律宾语Transformer模型可用。为了获得更好的性能,请使用 jcblaise/roberta-tagalog-base 或 jcblaise/roberta-tagalog-large 。
BERT 的菲律宾语版本,训练数据来源于从互联网上抓取和收集的大型预处理文本语料库。此模型是一个大型研究项目的一部分。我们将模型开源,以便菲律宾自然语言处理社区更广泛地使用。
有关模型的所有详细信息和训练设置,请参阅我们的论文。如果您在项目中使用了我们的模型或发现它对您有用,请引用我们的工作:
@article{cruz2020establishing, title={Establishing Baselines for Text Classification in Low-Resource Languages}, author={Cruz, Jan Christian Blaise and Cheng, Charibeth}, journal={arXiv preprint arXiv:2005.02068}, year={2020} } @article{cruz2019evaluating, title={Evaluating Language Model Finetuning Techniques for Low-resource Languages}, author={Cruz, Jan Christian Blaise and Cheng, Charibeth}, journal={arXiv preprint arXiv:1907.00409}, year={2019} }。
训练此模型所使用的数据以及其他菲律宾语基准数据集可以在我的网站 https://blaisecruz.com 上找到。
如果您有任何问题、疑虑,或者只是想聊一聊关于自然语言处理和低资源语言的话题,可以通过我的工作邮箱 me@blaisecruz.com 联系我。