微软宣布为Bing图像搜索推出Turing Bletchley v3视觉-语言模型

2023年08月31日 由 daydream 发表 409 0

微软正式宣布了其Turing Bletchley多语言视觉语言基础模型的第三版。它现在正在应用到微软的多个产品中,包括Bing搜索引擎,以改进图像搜索。


1681134786_1678474108_microsoft-bing-chat-1_story


微软于2021年11月推出了Turing Bletchley模型的第一个版本。微软在Bing官方博客中表示,在2022年秋季开始对该模型的第三版进行测试,然后将其添加到了Bing和其他产品中。


1693337173_bletchley_image1_story


该模型利用文本和图像输入来寻找用户在微软Bing搜索引擎上寻找的内容。目标是使模型尽可能接近,例如,描述“狗吃冰淇淋”的文本在搜索结果中尽可能接近狗吃冰淇淋的图像。


Turing Bletchley v3建立这些联系的一部分是对模型的全面调整。微软解释道:


给定一张图片和描述该图片的字幕,字幕中的某些单词被掩盖。然后训练一个神经网络,根据图片和文本预测被隐藏的单词。这个任务也可以翻转,将像素替换为单词。这种掩码训练与基于大型Transformer模型的强大预训练模型相结合,可以在各种下游任务的多样化训练集上进行微调。


除了用于Bing的图像搜索外,新的Turing Bletchley v3模型还用于Xbox游戏服务的内容审核。它有助于该团队识别出被上传到Xbox平台用户个人资料的图片和视频,判断是否违反了公司在Xbox平台上的社区规定,以及是否包含不合适的内容。

文章来源:https://www.neowin.net/news/microsoft-announces-turing-bletchley-v3-vision-language-model-for-bing-image-searches/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消