研究人员开发机器学习算法,使其在没有负面数据的情况下进行分类
2018年11月29日 由 浅浅 发表
266261
0
来自RIKEN Center高级智能项目中心(AIP)的研究团队成功开发了一种新的机器学习方法,允许AI在没有“负面数据”的情况下进行分类,这一发现可能会在各种分类任务中得到更广泛的应用。
分类对我们的日常生活至关重要,例如,我们要检测垃圾邮件,虚假的政治新闻,以及一些日常的东西,如物体或面孔。当使用AI时,这些任务基于机器学习中的“分类技术”, 让计算机使用正负数据的边界进行学习,如“正面”数据将是带有幸福面孔的照片,“负面”数据是带有悲伤面部的照片。
一旦学习了分类边界,计算机就可以确定某个数据是正面还是负面的。这项技术的难点在于,在学习过程中,它需要正面和负面数据,但现实中,许多情况无法提供负面数据,例如,很难找到带有悲伤标记的照片,因为大多数人在照相时会微笑。
就现实生活中的项目而言,当零售商试图预测谁将购买商品时,它可以轻松地找到已经购买商品的客户的数据(正面数据),但基本上不可能获得没有购买商品的客户的数据(负面数据),因为他们无法获得竞争对手的数据。
另一个例子是应用程序开发人员常见的任务:他们需要预测哪些用户将继续使用应用程序(正面),而哪些停止使用(负面)。但是,当用户取消订阅时,开发人员会丢失用户的数据,因为他们必须根据隐私政策完全删除该用户的数据。
RIKEN AIP的主要作者Takashi Ishida表示,“以前的分类方法很难应对无法获得负面数据的情况,但只要我们有一个置信度分数,我们就可以让计算机只用正面数据进行学习。对于正面数据,可根据购买意图或应用用户的有效率等信息来构建。使用新方法,我们可以让计算机只从充满信心的正面数据中学习分类。”
Ishida与他的团队研究员Niu Gang,以及团队负责人Masashi Sugiyama的共同提出方法,他们通过添加置信度得分让计算机更好地学习,置信度得分在数学上对应数据是否属于正面类别的概率。他们成功地开发了一种方法,可以让计算机只从正面的数据和信息中学习边界分类,从而对机器学习的分类问题进行正面和负面的划分。
为了了解系统运作情况,他们在一组包含各种时尚商品标记的照片上使用它。例如,他们选择“T恤”作为正面的类别,而另一边,“凉鞋”作为负面类。然后他们在“T恤”照片上附上了置信分数。他们发现,如果不访问负面数据,在某些情况下,他们的方法与一起使用正面和负面数据的方法一样好。
Ishida指出,“这一发现可以扩展可以使用分类技术的应用范围。即使在正面使用机器学习的领域,我们的分类技术也可以用于新的情况,如由于数据监管或业务限制数据只能收集正面数据的情况。在不久的将来,我们希望将此技术应用于各种研究领域,如自然语言处理,计算机视觉,机器人和生物信息学。”