模型:

deepset/gelectra-base-germanquad-distilled

英文

概览

语言模型: gelectra-base-germanquad-distilled 语言: 德语 训练数据: GermanQuAD训练集 (~ 12MB) 评估数据: GermanQuAD测试集 (~ 5MB) 基础设施: 1x V100 GPU 发布日期: 2021年4月21日

详情

  • 我们使用gelectra-base模型作为基础,训练了一个德语问答模型。
  • 数据集为GermanQuAD,是一个全新的德语语言数据集,我们手工注释并发布了 online
  • 训练数据集进行了单向注释,包含11518个问题和11518个答案,而测试数据集进行了三向注释,所以有2204个问题和2204·3−76 = 6536个答案,因为我们剔除了76个错误答案。
  • 除了GermanQuAD中的注释,我们还使用了Haystack的蒸馏功能进行训练,使用了deepset/gelectra-large-germanquad作为教师模型。

有关更多细节和以SQuAD格式下载数据集的信息,请参见 https://deepset.ai/germanquad

超参数

batch_size = 24
n_epochs = 6
max_seq_len = 384
learning_rate = 3e-5
lr_schedule = LinearWarmup
embeds_dropout_prob = 0.1
temperature = 2
distillation_loss_weight = 0.75

性能

我们在GermanQuAD测试集上评估了抽取式问答模型的性能。模型类型和训练数据包含在模型名称中。对于XLM-Roberta的微调,我们使用了英语SQuAD v2.0数据集。GELECTRA模型在德语SQuAD v1.1的翻译上进行了预热启动,然后在德语Quad上进行微调。人工基准是通过将一个答案作为预测值,另外两个答案作为参考答案来计算的。

"exact": 62.4773139745916
"f1": 80.9488017070188

作者

  • Timo Möller: timo.moeller [at] deepset.ai
  • Julian Risch: julian.risch [at] deepset.ai
  • Malte Pietsch: malte.pietsch [at] deepset.ai
  • Michel Bartels: michel.bartels [at] deepset.ai

关于我们

我们通过开源方式将自然语言处理技术引入到工业领域!我们专注于行业特定的语言模型和大规模问答系统。

我们的一些工作:

联系我们: Twitter | LinkedIn | Slack | GitHub Discussions | Website

顺便说一句: we're hiring!