模型:
facebook/npm-single
NPM-single是一个在英文文本数据上预训练的非参数遮蔽语言模型。它由 "Nonparametric Masked Language Modeling" 引入,并于 facebookresearch/NPM 首次发布。
NPM由一个编码器和一个参考语料库组成,模拟参考语料库上的一个非参数分布。关键思想是使用编码器将语料库中的所有短语映射到一个稠密向量空间,并在推理过程中,当给定一个带有遮蔽的查询时,使用编码器定位与语料库中最接近的短语并填充遮蔽。
NPM-single是NPM的一个变种,它从语料库中检索一个标记,而不是一个短语。
虽然这个仓库包括编码器权重,但NPM-single必须与数据存储一起使用。有关如何使用NPM-single的更多详细信息,请参考 original repo 。
注意,该模型主要用于填充遮蔽标记。未来的工作可以探索如何将NPM-single用于文本生成。
NPM-single在英文维基百科(2019年8月)和CC-News的英文部分(Mackenzie等人,2019年2月)上进行了训练,总共包含130亿个标记。NPM-single使用了RoBERTa large(Liu等人,2019年)的模型架构和初始权重,共有354M个参数。训练使用了100,000个步骤,使用三十二个32GB的GPU。
关于训练的更多细节可以在 paper 中找到。训练NPM-single的代码可以在 original repo 中找到。
NPM-single在九个闭集任务(给定一小组选项的任务)上进行了评估。NPM-single始终优于诸如GPT-3和T5等更大的模型。详细结果可以从 paper 中找到。
@article{ min2022nonparametric, title={ Nonparametric Masked Language Modeling }, author={ Min, Sewon and Shi, Weijia and Lewis, Mike and Chen, Xilun and Yih, Wen-tau and Hajishirzi, Hannaneh and Zettlemoyer, Luke }, year={ 2022 } }