模型:
dbmdz/bert-base-turkish-uncased
在这个代码库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了一个用于土耳其语的非大写模型?
BERTurk是一个由社区驱动的土耳其非大写BERT模型。
一些用于预训练和评估的数据集是由伟大的土耳其NLP社区贡献的,同时也包括模型名称的决定:BERTurk。
当前模型的版本是基于经过过滤和句子分割的土耳其 OSCAR corpus ,最近的维基百科转储版本、各种 OPUS corpora 和由 Kemal Oflazer 提供的特殊语料库进行训练的。
最终的训练语料库的大小为35GB,有44,04,976,662个标记。
由于谷歌的TensorFlow Research Cloud(TFRC)的支持,我们可以在TPU v3-8上进行2M步的非大写模型训练。
目前只提供与PyTorch- Transformers 兼容的权重。如果需要TensorFlow检查点的访问权限,请提出问题!
Model | Downloads |
---|---|
dbmdz/bert-base-turkish-uncased | 1235321 • 1236321 • 1237321 |
使用Transformers >= 2.3,我们可以加载BERTurk非大写模型,如下所示:
from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-uncased") model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-uncased")
有关词性标注或NER任务的结果,请参阅 this repository 。
所有模型都可以在 Huggingface model hub 中找到。
如果对我们的BERT模型有任何问题,请提一个问题 here ?
感谢 Kemal Oflazer 为我们提供了额外的大规模土耳其语语料库。感谢Reyyan Yeniterzi提供土耳其NER数据集进行评估。
研究得到了谷歌TensorFlow Research Cloud(TFRC)提供的Cloud TPU的支持。感谢提供TFRC的访问权限❤️
感谢 Hugging Face 团队的慷慨支持,我们可以从他们的S3存储中下载大小写模型?