模型:

microsoft/SportsBERT

英文

预训练大型自然语言处理模型,如BERT、RoBERTa等,现在已成为自然语言理解和处理任务中的最先进模型。然而,这些模型是在网络或像quora、维基百科等知识库中包含各种领域和背景的文章的通用语料库上训练的。在医学等领域,训练特定领域的语言模型已被证明比预训练的通用模型表现更好。基于这个知识,我们开始训练了一个专注于体育文章的BERT模型,名为SportsBERT。

SportsBERT是一个从头开始训练的BERT模型,专门关注体育文章。训练语料库包括过去4年从网络上获取的与体育相关的新闻文章。这些文章涵盖了足球、篮球、曲棍球、板球、足球、棒球、奥运会、网球、高尔夫、综合格斗等体育新闻。共有大约800万个训练样本被用来训练这个模型。我们从头开始训练了一个分词器,将更多与体育相关的标记加入到词汇表中。该模型的架构采用BERT基础无大小写架构。模型在四个V100 GPU上进行训练。它是一个基于MLM的transformers模型,模型的主要任务是填充缺失的遮罩标记。例如,

"安东尼·戴维斯是一位[MASK]"会给出"传奇"、"巨星"、"新秀"、"明星"、"王者"这些标记,以降序表示置信度。

然后,可以使用该模型对其他任务进行微调,例如分类、实体提取等。

语言:英文pipeline_tag: fill-mask

作者:Prithvishankar Srinivasan(prsrini@microsoft.com)