深度学习系统根据食谱自动生成食物图像
2019年01月16日 由 浅浅 发表
227110
0
对于计算机视觉,通过一长串文本创建图像是复杂的。为了加速这一领域的研究,以色列特拉维夫大学的一个团队开发了一个基于深度学习的系统,该系统可以通过简单的基于文本的食谱自动生成食物的图片。
研究人员在他们的论文中指出:“我们提出了一项新的任务,即通过长文本生成图像,这与图像有关,但不包含对图像的直观描述。”
团队使用NVIDIA TITAN X GPU,以及cuDNN加速的 PyTorch深度学习框架,用52000个食谱及其相应的图像训练了GAN。经过训练后,系统从一长串没有描述视觉内容的文本中生成菜谱的图像。
研究者之一Ori Bar El表示,食谱作为输入,系统从头开始生成它认为该食谱描述的食物的图像。
重要的一点是,系统无法访问菜谱的标题,否则这项任务将非常简单,而且菜谱的文本很长,不能直接描述图像的视觉内容。这使得这项任务即使对人类来说也非常困难,对计算机来说更是如此。
为了评估系统产生的两种方法的图像,该团队利用人类评论者的帮助,以1到5的等级判断最具吸引力的图像。值得一提的是,一些真实的食物图像排名低于生成的图像。
该系统成功生成类似粥的食物图像,包括意大利面,米饭,汤和沙拉,但很难生成具有独特形状的图像,如汉堡包,鸡肉或饮料。
论文:
arxiv.org/pdf/1901.02404.pdf