英文

MultiBERTs,中间检查点 - 种子2,步骤0k

MultiBERTs是一个检查点集合和一个统计库,支持对BERT进行健壮研究。我们提供了25个使用 the original BERT model 类似的超参数训练的BERT-base模型,但使用了不同的随机种子,这导致初始权重和训练实例的顺序有所变化。目的是区分适用于特定构件(即模型的特定实例)的发现,与适用于更一般过程的发现。

我们还提供了在预训练过程中捕获的140个中间检查点(前5次运行保存了28个检查点)。

这些模型最初是通过 http://goo.gle/multiberts 发布的。我们在我们的论文 The MultiBERTs: BERT Reproductions for Robustness Analysis 中对它们进行了描述。

这是模型#2,在步骤0k时进行捕获(最大:2000k,即2M步)。

模型描述

此模型是在 BERT-base uncased 的再现过程中捕获的,适用于英语:它是一个在大量英语数据上进行预训练的Transformer模型,使用遮盖语言建模(MLM)和下一句预测(NSP)目标。

完全训练模型的预期用途,限制,训练数据和训练过程与 BERT-base uncased 类似。与原始模型相比有两个主要差异:

  • 我们使用长度为512的序列进行2百万步的MultiBERTs模型预训练(而不是使用长度为128然后512的序列进行100万步)。
  • 我们使用了维基百科和图书语料库的替代版本,最初是为 Turc et al., 2019 收集而来的。

    这是尽力复现,因此可能存在与原始模型不同的地方未被注意到。MultiBERTs在完全训练后在GLUE上的性能往往与原始BERT相当,但我们在SQuAD的开发集上发现了显着差异(MultiBERTs优于原始BERT)。请参阅我们的 technical report 获取更多详细信息。

    如何使用

    使用来自 BERT-base uncased 的代码,这是基于Tensorflow的示例:

    from transformers import BertTokenizer, TFBertModel
    tokenizer = BertTokenizer.from_pretrained('google/multiberts-seed_2-step_0k')
    model = TFBertModel.from_pretrained("google/multiberts-seed_2-step_0k")
    text = "Replace me by any text you'd like."
    encoded_input = tokenizer(text, return_tensors='tf')
    output = model(encoded_input)
    

    PyTorch版本:

    from transformers import BertTokenizer, BertModel
    tokenizer = BertTokenizer.from_pretrained('google/multiberts-seed_2-step_0k')
    model = BertModel.from_pretrained("google/multiberts-seed_2-step_0k")
    text = "Replace me by any text you'd like."
    encoded_input = tokenizer(text, return_tensors='pt')
    output = model(**encoded_input)
    

    引用信息
    @article{sellam2021multiberts,
      title={The MultiBERTs: BERT Reproductions for Robustness Analysis},
      author={Thibault Sellam and Steve Yadlowsky and Jason Wei and Naomi Saphra and Alexander D'Amour and Tal Linzen and Jasmijn Bastings and Iulia Turc and Jacob Eisenstein and Dipanjan Das and Ian Tenney and Ellie Pavlick},
      journal={arXiv preprint arXiv:2106.16163},
      year={2021}
    }