短信垃圾多语言数据集
收集了标记为垃圾或合法的多语言短信消息
关于数据集
背景
SMS垃圾短信集合是一组用于SMS垃圾邮件研究的标记短信消息。最初包含一个包含5,574条英文短信的数据集,根据是否为合法(ham)或垃圾(spam)进行了标记,并后来通过机器翻译转换成了印地语、德语和法语。
文本还使用了M2M100_418M多语言编码器-解码器(序列到序列)模型,通过Facebook AI创建的Many-to-Many多语言翻译模型将其进一步翻译成了西班牙语、中文、阿拉伯语、孟加拉语、俄语、葡萄牙语、印尼语、乌尔都语、日语、旁遮普语、印尼爪哇语、土耳其语、朝鲜语、马拉地语、乌克兰语、瑞典语和挪威语。
内容
增强的数据集包含多语言文本及其相应的标签。
ham- 非垃圾邮件文本
spam- 垃圾邮件文本
致谢
原始英文文本取自- https://www.kaggle.com/uciml/sms-spam-collection-dataset 印地语、德语和法语取自- https://www.kaggle.com/datasets/rajnathpatel/multilingual-spam-data