Twitter 2022年6月(RoBERTa-base,132M)
这是一个在2022年6月之前训练的RoBERTa-base模型,训练数据包括132.26M条推文。更多详细信息和性能评分请参考这个链接。
以下是使用标准Transformers接口的一些用法示例。如果需要比较在不同时间段训练的模型之间的预测和困惑度得分,可以使用这个链接提供的另一种接口。
若要了解其他训练至不同时期的模型,请查看这里的链接。
预处理文本
将用户名和链接替换为占位符:"@user"和"http"。如果您希望保留在训练期间也保留的已验证用户,请保留这里列出的用户。
示例遮掩语言模型