微软正式宣布了其Turing Bletchley多语言视觉语言基础模型的第三版。它现在正在应用到微软的多个产品中,包括Bing搜索引擎,以改进图像搜索。
微软于2021年11月推出了Turing Bletchley模型的第一个版本。微软在Bing官方博客中表示,在2022年秋季开始对该模型的第三版进行测试,然后将其添加到了Bing和其他产品中。
该模型利用文本和图像输入来寻找用户在微软Bing搜索引擎上寻找的内容。目标是使模型尽可能接近,例如,描述“狗吃冰淇淋”的文本在搜索结果中尽可能接近狗吃冰淇淋的图像。
Turing Bletchley v3建立这些联系的一部分是对模型的全面调整。微软解释道:
给定一张图片和描述该图片的字幕,字幕中的某些单词被掩盖。然后训练一个神经网络,根据图片和文本预测被隐藏的单词。这个任务也可以翻转,将像素替换为单词。这种掩码训练与基于大型Transformer模型的强大预训练模型相结合,可以在各种下游任务的多样化训练集上进行微调。
除了用于Bing的图像搜索外,新的Turing Bletchley v3模型还用于Xbox游戏服务的内容审核。它有助于该团队识别出被上传到Xbox平台用户个人资料的图片和视频,判断是否违反了公司在Xbox平台上的社区规定,以及是否包含不合适的内容。