Google推出RETVec:大幅提升Gmail垃圾邮件拦截效率

2023年12月05日 由 daydream 发表 437 0

最新的Google安全博客文章详细介绍了Gmail垃圾邮件过滤器的一次新升级,Google 称之为“近年来最大的防御升级之一”。该升级采用了一种名为RETVec(Resilient & Efficient Text Vectorizer)的新文本分类系统。Google表示,这有助于理解“对抗性文本操纵”——这些是充满特殊字符、表情符号、拼写错误和其他杂乱字符的电子邮件,之前人类可以阅读,但机器不容易理解。以前,充满特殊字符的垃圾邮件很容易穿过Gmail的防线。


微信截图_20231205140440


这些邮件之所以难以分类,是因为尽管任何垃圾邮件过滤器可能都能轻易拦截一封声称“恭喜!您的奖金账户可用余额1,000美元”的邮件,但实际上这封邮件并不是这么说的。主题“?????_????_???????”之所以看起来奇怪的加粗,不是因为它使用了加粗样式,而是因为它使用了像“数学粗体大写字母C”这样的Unicode字符。它是一个数学符号,看起来像是给人看的字母“C”,但实际上进行垃圾邮件过滤的机器器准确地将其视为数学符号,而不理解其预期的英文含义。仔细看这封邮件,情况就更糟了:“C0NGRATULATIONS”中的一个“O”字符被零替换了,“Jᴀ̲ᴄ̲ᴋ̲pot”中的下划线字母是如此奇怪,以至于Unicode搜索甚至找不到它们,许多空格被点或下划线换掉了。结果就是,垃圾邮件过滤器看到这一团乱麻的邮件,基本上就选择放弃了。


Google称,RETVec来拯救这一切:“RETVec经过训练,能够对字符级操纵进行抵御,包括插入、删除、拼写错误、同形异义词、LEET替代等。RETVec模型基于一种新颖的字符编码器进行训练,该编码器能高效编码所有UTF-8字符和单词。因此,RETVec可以不需要查找表或固定词汇量就能支持100多种语言。”


Google称,这里的效率是一个大问题。之前使用固定词汇量或同形异义词查找表的替代方案,使它们在运行时资源密集。想象一下,列出每种可能的“恭喜”拼写和误拼写的列表,其中一个或多个字符被数字、数学符号、西里尔字母、希伯来字母或表情符号替换,你就有了一个几乎无穷无尽的列表。Google说RETVec只有20万“而不是百万个参数”,所以虽然Google的垃圾邮件过滤云可能足够大以运行任何东西,但这足够小,甚至可以在本地设备上运行。RETVec是开源的,Google希望它可以消除同形异义词攻击,所以甚至你的本地评论区将来也可能运行它。


RETVec的工作方式很像人类阅读:它是一个使用视觉“相似性”来识别单词含义而不是其实际字符内容的机器学习TensorFlow模型。Google的相似性演示使用相同的技术来识别猫的图片,所以将其转化为世界上最奇特的光学字符识别系统听起来是相当可行的。显然,这种方法取得了显著的改进,Google表示:“用RETVec替换Gmail垃圾邮件分类器之前的文本向量化器,使我们能够将垃圾邮件检测率提高38%,并将误报率降低了19.4%。此外,使用RETVec降低了模型的TPU使用率83%,使RETVec部署成为近年来最大的防御升级之一。”


Google表示,它已经在内部“测试了一年多”的RETVec,并且已经部署到了您的Gmail账户中。

文章来源:https://arstechnica.com/gadgets/2023/12/gmails-ai-powered-spam-detection-is-its-biggest-security-upgrade-in-years/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消