语言模型:bert-base-cased 语言:德语 训练数据:维基百科,OpenLegalData,新闻(约 12GB) 评估数据:Conll03(实体识别),GermEval14(实体识别),GermEval18(分类),GNAD(分类) 基础设施:1个TPU v2 发布日期:2019年6月14日
2020年4月3日更新:我们在deepset的s3上更新了词汇文件,以符合标点符号标记的默认分词。有关详细信息,请参见相关的 FARM issue 。如果您想使用旧的词汇表,我们还上传了一个 "deepset/bert-base-german-cased-oldvocab" 模型。
有关详细信息,请参见 https://deepset.ai/german-bert
batch_size = 1024 n_steps = 810_000 max_seq_len = 128 (and 512 later) learning_rate = 1e-4 lr_schedule = LinearWarmup num_warmup_steps = 10_000
在训练过程中,我们监视损失,并在以下德语数据集上评估不同的模型检查点:
即使没有进行彻底的超参数调整,我们观察到我们的德语模型的学习非常稳定。使用不同种子进行多次重启产生了相似的结果。
我们还在预训练的9天中不同的时间点进行了评估,并惊讶地发现模型收敛到最大可达性能的速度非常快。我们在7个不同的模型检查点上运行了所有5个下游任务-从0到840k的训练步骤(图中的X轴)。大部分检查点来自早期训练,我们预期在这些阶段有最大的性能变化。令人惊讶的是,即使是随机初始化的BERT也可以仅依靠标记的下游数据集进行训练并达到良好的性能(蓝色线,GermEval 2018 Coarse任务,795 kB训练集大小)。
我们通过开源将NLP技术带给行业!我们专注于行业特定的语言模型和大规模问答系统。
我们的一些工作: