模型:
jcblaise/electra-tagalog-small-uncased-discriminator
报废通知 此模型已被废弃。我们提供了使用更大数据集训练的新的菲律宾语Transformer模型,使用 jcblaise/roberta-tagalog-base 或 jcblaise/roberta-tagalog-large 以获得更好的性能。
通过从互联网上获取的大规模语料库预训练的塔加洛语ELECTRA模型。该模型是一个更大研究项目的一部分。我们开源模型,以便菲律宾自然语言处理社区更多地使用它。
这是鉴别器模型,是用于下游任务微调的主要Transformer。有关生成、填充和重新训练,请参考生成器模型。
所有模型细节和训练设置均可在我们的论文中找到。如果您在项目中使用我们的模型或发现它对您有帮助,请引用我们的工作:
@inproceedings{cruz2021exploiting, title={Exploiting News Article Structure for Automatic Corpus Generation of Entailment Datasets}, author={Cruz, Jan Christian Blaise and Resabal, Jose Kristian and Lin, James and Velasco, Dan John and Cheng, Charibeth}, booktitle={Pacific Rim International Conference on Artificial Intelligence}, pages={86--99}, year={2021}, organization={Springer} }
用于训练此模型以及菲律宾语的其他基准数据集可以在我的网站 https://blaisecruz.com 上找到。
如果您有问题、疑虑,或者只是想聊一聊自然语言处理和低资源语言,您可以通过我的工作邮箱me@blaisecruz.com与我联系。