🇹🇷 Turkish ConvBERT 模型

我们为土耳其推出了由社区驱动的BERT、DistilBERT、ELECTRA和ConvBERT模型🎉

部分用于预训练和评估的数据集是由很棒的土耳其NLP社区做出贡献的，同时也是从BERT模型命名来看的决策：BERTurk。

Logo由 Merve Noyan 提供。

统计

我们在AI2团队最近发布的土耳其语中部分数据集上训练了一个（uncased）ConvBERT模型。

在过滤掉编码错误的文档后，训练语料库的大小为242GB，结果为31,240,963,926个标记。

我们使用了原始的32k词汇表（而不是创建一个新的词汇表）。

mC4 ConvBERT

除了 ELEC TR A基本模型之外，我们还在mC4语料库的土耳其语部分上训练了一个ConvBERT模型。我们在整个训练时间内使用了512的序列长度，并在v3-32 TPU上进行了100万步的训练。

模型使用

所有训练好的模型都可以通过使用它们的模型名称从 DBMDZ Hugging Face model hub page 进行使用。

使用示例：🤗/变换器

tokenizer = AutoTokenizer.from_pretrained("dbmdz/convbert-base-turkish-mc4-uncased")

model = AutoModel.from_pretrained("dbmdz/convbert-base-turkish-mc4-uncased")

引用

您可以使用以下BibTeX条目进行引用：

@software{stefan_schweter_2020_3770924,
  author       = {Stefan Schweter},
  title        = {BERTurk - BERT models for Turkish},
  month        = apr,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.3770924},
  url          = {https://doi.org/10.5281/zenodo.3770924}
}

致谢

感谢 Kemal Oflazer 提供给我们用于土耳其语的额外大型语料库。非常感谢Reyyan Yeniterzi提供给我们土耳其语NER数据集用于评估。

我们要感谢 Merve Noyan 为我们设计这个令人赞叹的logo！

该研究得到了谷歌TensorFlow研究云（TFRC）的云TPU支持。感谢提供TFRC的接入 ❤️

作者:

Bayerische Staatsbibliothek

数据集大小:

913.31 MB