这是一个在十种语言中超过1.56亿条推文上微调的XLM-RoBERTa-large模型:英语、西班牙语、意大利语、葡萄牙语、法语、中文、印地语、阿拉伯语、荷兰语和韩语。该模型在原始的XLM-RoBERTa-large检查点上进行了2个时期的训练,批处理大小为1024。
为了获得最佳结果,在将推文传递给模型之前,请使用以下方法预处理推文:
def preprocess(text): new_text = [] for t in text.split(" "): t = '@user' if t.startswith('@') and len(t) > 1 else t t = 'http' if t.startswith('http') else t new_text.append(t) return " ".join(new_text)