我们为土耳其推出了基于社区驱动的 BERT、DistilBERT、ELECTRA 和 ConvBERT 模型 ?
部分用于预训练和评估的数据集来自出色的土耳其 NLP 社区,BERT 模型也是由他们命名的:BERTurk。
徽标是由 Merve Noyan 提供的。
我们在 AI2 团队最近发布的土耳其语部分数据集上训练了一个(大小写敏感)的 ConvBERT 模型。
过滤掉编码错误的文档后,训练语料库的大小为 242GB,共有 31,240,963,926 个标记。
我们使用了原始的 32k 词汇表(而不是创建新的词汇表)。
除了 ELEC TR A 基础模型之外,我们还在 mC4 语料库的土耳其语部分上训练了一个 ConvBERT 模型。我们在整个训练时间内使用序列长度为 512,并在 v3-32 TPU 上进行了 1M 步的训练。
所有训练好的模型都可以通过 Hugging Face DBMDZ 使用它们的模型名称。
使用示例:?/Transformers
tokenizer = AutoTokenizer.from_pretrained("dbmdz/convbert-base-turkish-mc4-cased") model = AutoModel.from_pretrained("dbmdz/convbert-base-turkish-mc4-cased")
您可以使用以下 BibTeX 条目进行引用:
@software{stefan_schweter_2020_3770924, author = {Stefan Schweter}, title = {BERTurk - BERT models for Turkish}, month = apr, year = 2020, publisher = {Zenodo}, version = {1.0.0}, doi = {10.5281/zenodo.3770924}, url = {https://doi.org/10.5281/zenodo.3770924} }
感谢 Kemal Oflazer 提供了额外的大规模土耳其语语料库。非常感谢 Reyyan Yeniterzi 提供了用于评估的土耳其语命名实体识别数据集。
我们也要感谢 Merve Noyan 提供的精美徽标!
该研究得到了谷歌 TensorFlow Research Cloud(TFRC)提供的云 TPU 的支持。感谢提供 TFRC 的访问权限 ❤️