模型:

sdadas/xlm-roberta-large-twitter

英文

XLM-RoBERTa-large-twitter

这是一个在十种语言中超过1.56亿条推文上微调的XLM-RoBERTa-large模型:英语、西班牙语、意大利语、葡萄牙语、法语、中文、印地语、阿拉伯语、荷兰语和韩语。该模型在原始的XLM-RoBERTa-large检查点上进行了2个时期的训练,批处理大小为1024。

为了获得最佳结果,在将推文传递给模型之前,请使用以下方法预处理推文:

def preprocess(text):
    new_text = []
    for t in text.split(" "):
        t = '@user' if t.startswith('@') and len(t) > 1 else t
        t = 'http' if t.startswith('http') else t
        new_text.append(t)
    return " ".join(new_text)