模型:

dbmdz/convbert-base-turkish-mc4-cased

英文

?? Turkish ConvBERT 模型

我们为土耳其推出了基于社区驱动的 BERT、DistilBERT、ELECTRA 和 ConvBERT 模型 ?

部分用于预训练和评估的数据集来自出色的土耳其 NLP 社区,BERT 模型也是由他们命名的:BERTurk。

徽标是由 Merve Noyan 提供的。

统计数据

我们在 AI2 团队最近发布的土耳其语部分数据集上训练了一个(大小写敏感)的 ConvBERT 模型。

过滤掉编码错误的文档后,训练语料库的大小为 242GB,共有 31,240,963,926 个标记。

我们使用了原始的 32k 词汇表(而不是创建新的词汇表)。

mC4 ConvBERT

除了 ELEC TR A 基础模型之外,我们还在 mC4 语料库的土耳其语部分上训练了一个 ConvBERT 模型。我们在整个训练时间内使用序列长度为 512,并在 v3-32 TPU 上进行了 1M 步的训练。

模型使用

所有训练好的模型都可以通过 Hugging Face DBMDZ 使用它们的模型名称。

使用示例:?/Transformers

tokenizer = AutoTokenizer.from_pretrained("dbmdz/convbert-base-turkish-mc4-cased")

model = AutoModel.from_pretrained("dbmdz/convbert-base-turkish-mc4-cased")

引用文献

您可以使用以下 BibTeX 条目进行引用:

@software{stefan_schweter_2020_3770924,
  author       = {Stefan Schweter},
  title        = {BERTurk - BERT models for Turkish},
  month        = apr,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.3770924},
  url          = {https://doi.org/10.5281/zenodo.3770924}
}

致谢

感谢 Kemal Oflazer 提供了额外的大规模土耳其语语料库。非常感谢 Reyyan Yeniterzi 提供了用于评估的土耳其语命名实体识别数据集。

我们也要感谢 Merve Noyan 提供的精美徽标!

该研究得到了谷歌 TensorFlow Research Cloud(TFRC)提供的云 TPU 的支持。感谢提供 TFRC 的访问权限 ❤️