IBM开发AI模型LaSO网络,使用语义内容创建新的带标记的图像集
2019年06月17日 由 冯鸥 发表
9797
0
IBM,特拉维夫大学和以色列理工学院的科学家设计了一种新颖的AI模型:标签集操作(LaSO)网络,用于组合成对的带标记的图像示例,以创建包含种子图像标记的新示例。未来LaSO网络可用于增加缺乏足够的真实数据的语料库。
“我们的方法能够生成含有两个输入样本中存在标记的样本,”研究人员写道,“提出的方法也可能应用于有趣的视觉对话用例,用户可以通过指出或显示她喜欢或不喜欢的视觉示例来操作返回的查询结果。”
LaSO网络学会对给定样本的标签集进行操作,并合成与组合标签集相对应的新标签集,将不同类型的照片作为输入,在隐式地从另一个样本中删除一个样本中的概念之前,识别共同的语义内容。
例如,LaOS网络中的“联合”操作将会生成标记为“人”,“狗”,“猫”和“绵羊”的合成示例,而“交叉”和“减法”操作将导致示例分别标记为“人”和“狗”或“绵羊”。
因为AI模型直接在图像表示上运行,并且不需要额外的输入来控制操作,所以它们能够泛化到训练期间没有看到过的类别的图像。
正如研究人员所解释的那样,在使用非常少的数据训练模型的实践中,每个类别通常只有一个或非常少的样本可用。图像分类领域的大多数方法只涉及单个标签,其中每个训练图像只包含一个对象和相应的类别标签。
团队的论文研究的一个更具挑战性的场景是多标记少镜头学习,其中训练图像包含跨多个类别标签的多个对象。
研究人员将几个LaSO网络作为单个多任务网络联合训练,每个图像有多个标记映射到该图像上出现的对象。然后,通过使用在多标签数据上预训练的分类器来评估网络对输出示例进行分类的能力。
在另一个独立的少镜头学习实验中,研究小组利用LaSO网络从提供的少数训练例子中随机抽取额外的例子,并为多标记少镜头分类设计了一个新的基准。
研究人员表示,“多标签少镜头分类是一项新的,具有挑战性和实用性的任务。在提议的基准测试中使用神经网络评估LaSO标签集操作的结果表明,LaSO具有很好的潜力,我们希望这项工作能激励更多研究人员研究这个有趣的问题。”