英文

NPM

NPM是一个非参数掩码语言模型,预训练于英文文本数据。它由 "Nonparametric Masked Language Modeling" 引入,并于 facebookresearch/NPM 首次发布。

模型描述

NPM由一个编码器和一个参考语料库组成,模拟了对参考语料库的非参数分布。其关键思想是使用编码器将语料库中的所有短语映射到一个密集向量空间中,并在推理时,当给定一个带有MASK的查询时,使用编码器定位到语料库中最近的短语并填充MASK。

意图使用和限制

虽然这个库包含编码器权重,但NPM必须与数据存储一起使用。有关如何使用NPM的更多详细信息,请参阅 original repo

请注意,该模型主要用于填充MASK标记。未来的工作可以研究如何使用NPM进行文本生成。

训练过程

NPM在英文维基百科(2019年8月)和CC-News的英文部分(Mackenzie等人,2019年2月)上进行了训练,总共包含13亿个标记。NPM采用了RoBERTa large(Liu等人,2019年)的模型架构和初始权重,共有354M个参数。训练进行了100,000步,使用32个32GB的GPU。

有关训练的更多详细信息可以在 paper 中找到。可以在 original repo 中找到用于训练NPM的代码。

评估结果

NPM在九个具有有限选项的封闭集任务和七个具有任意长度答案的开放集任务上进行了评估。NPM始终优于GPT-3、OPT和T5等更大的模型。详细的结果可以在 paper 中找到。

BibTeX条目和引用信息

@article{ min2022nonparametric,
    title={ Nonparametric Masked Language Modeling },
    author={ Min, Sewon and Shi, Weijia and Lewis, Mike and Chen, Xilun and Yih, Wen-tau and Hajishirzi, Hannaneh and Zettlemoyer, Luke },
    year={ 2022 }
}