这是一个在十种语言中超过1.56亿条推文上微调的XLM-RoBERTa-large模型:英语、西班牙语、意大利语、葡萄牙语、法语、中文、印地语、阿拉伯语、荷兰语和韩语。该模型在原始的XLM-RoBERTa-large检查点上进行了2个时期的训练,批处理大小为1024。
为了获得最佳结果,在将推文传递给模型之前,请使用以下方法预处理推文:
def preprocess(text):
new_text = []
for t in text.split(" "):
t = '@user' if t.startswith('@') and len(t) > 1 else t
t = 'http' if t.startswith('http') else t
new_text.append(t)
return " ".join(new_text)