我们为土耳其推出了由社区驱动的BERT、DistilBERT、ELECTRA和ConvBERT模型?
部分用于预训练和评估的数据集是由很棒的土耳其NLP社区做出贡献的,同时也是从BERT模型命名来看的决策:BERTurk。
Logo由 Merve Noyan 提供。
我们在AI2团队最近发布的土耳其语中部分数据集上训练了一个(uncased)ConvBERT模型。
在过滤掉编码错误的文档后,训练语料库的大小为242GB,结果为31,240,963,926个标记。
我们使用了原始的32k词汇表(而不是创建一个新的词汇表)。
除了 ELEC TR A基本模型之外,我们还在mC4语料库的土耳其语部分上训练了一个ConvBERT模型。我们在整个训练时间内使用了512的序列长度,并在v3-32 TPU上进行了100万步的训练。
所有训练好的模型都可以通过使用它们的模型名称从 DBMDZ Hugging Face model hub page 进行使用。
使用示例:?/变换器
tokenizer = AutoTokenizer.from_pretrained("dbmdz/convbert-base-turkish-mc4-uncased") model = AutoModel.from_pretrained("dbmdz/convbert-base-turkish-mc4-uncased")
您可以使用以下BibTeX条目进行引用:
@software{stefan_schweter_2020_3770924, author = {Stefan Schweter}, title = {BERTurk - BERT models for Turkish}, month = apr, year = 2020, publisher = {Zenodo}, version = {1.0.0}, doi = {10.5281/zenodo.3770924}, url = {https://doi.org/10.5281/zenodo.3770924} }
感谢 Kemal Oflazer 提供给我们用于土耳其语的额外大型语料库。非常感谢Reyyan Yeniterzi提供给我们土耳其语NER数据集用于评估。
我们要感谢 Merve Noyan 为我们设计这个令人赞叹的logo!
该研究得到了谷歌TensorFlow研究云(TFRC)的云TPU支持。感谢提供TFRC的接入 ❤️