ELECTRA塔加洛语小型解码器

通过从互联网上获取的大规模语料库预训练的塔加洛语ELECTRA模型。该模型是一个更大研究项目的一部分。我们开源模型，以便菲律宾自然语言处理社区更多地使用它。

这是鉴别器模型，是用于下游任务微调的主要Transformer。有关生成、填充和重新训练，请参考生成器模型。

引用

所有模型细节和训练设置均可在我们的论文中找到。如果您在项目中使用我们的模型或发现它对您有帮助，请引用我们的工作：

@inproceedings{cruz2021exploiting,
  title={Exploiting News Article Structure for Automatic Corpus Generation of Entailment Datasets},
  author={Cruz, Jan Christian Blaise and Resabal, Jose Kristian and Lin, James and Velasco, Dan John and Cheng, Charibeth},
  booktitle={Pacific Rim International Conference on Artificial Intelligence},
  pages={86--99},
  year={2021},
  organization={Springer}
}

数据和其他资源

用于训练此模型以及菲律宾语的其他基准数据集可以在我的网站 https://blaisecruz.com 上找到。

联系方式

如果您有问题、疑虑，或者只是想聊一聊自然语言处理和低资源语言，您可以通过我的工作邮箱me@blaisecruz.com与我联系。

作者:

Jan Christian Blaise Cruz

数据集大小:

52.68 MB