通过实例说明机器学习如何处理歧义
2018年07月09日 由 浅浅 发表
785216
0
在机器学习和人工智能的世界中,遇到的每个独特的现实世界问题都有其自身的影响和危险。尽管采用了所有有效的技术,但有时很难取代诸如“不确定性”的简单因素。例如,在图像分类中,如果未详细考虑数据中的图像特征,则即使学习算法相应地对它们进行分类,系统中的输出也将是模糊的。
当谈到ML中的模糊性时,这只是冰山一角。尽管ML系统经过精心设计,但有时会遇到新的,不确定的问题。不确定性可能存在于ML的任何部分,无论是在目标中还是在它收到的数据中。这些因素导致开放性的解释。在本文中,我们将研究ML以最合适的方式处理歧义的一些情况。
案例1:自然语言处理
对ML模糊性的最早研究之一是准确地开发自然语言任务,其中算法被作用于特征空间中的线性分离器。这是为了解决算法处理的语言中存在的语义错误和语法错误。在美国宾夕法尼亚大学教授Dan Roth的一项研究中,他提出了一种学习方法,其中线性分离器用于解决语言歧义。
该研究侧重于语言方面,如机器翻译的单词选择,词性标注和词义消歧。该研究的研究论文将语言学习过程视为消歧问题,并应用线性分离技术。消歧问题的正式定义是用不同的单词谓词,它们的分类和学习问题的特征来定义的。此外,还强调了各种消歧方法,以将它们用作线性分离器。
与其他方法,如Naive-Bayes和基于转换的学习(TBL)相比,该研究中提到的线性分离方法确实表现良好,从而为自然语言中的模糊性提供了更好的选择。
案例2:DNA测序
基因组学的进步非常迅速,已经为测序过程产生了大量可能的数据。测序是在DNA中排列核苷酸以确定遗传信息的过程。虽然有些机器能够在更快的时间内分析测序。德国马克斯普朗克进化人类学研究所开发了一种名为Ibis(改进的基础识别系统)的新机器,与Illumina合作,Illumina是一种使用荧光测序DNA碱基的分析仪(该过程称为碱基调用)。
该系统利用ML和统计方法,如聚类和支持向量机(SVM)。它主要通过学习数百万DNA分子中碱基的强度(强度)来改善碱基调用过程。强度在ML过程中标记。模糊性存在于基础的强度,如果错误地解释了整个测序过程可能无效,或者在整个过程中没有正确捕获它们。Ibis通过确保完美捕获强度水平来解决这个问题。因此,它使用多类SVM来实现。
案例3:图像分类识别单词,即视觉单词
ML中最具挑战性的问题之一是使用图像分类的语言描述(例如颜色或特征),这导致了许多种解释。表达视觉描绘的单词通常不考虑ML中的技术,例如图像分类,因为它应该同时考虑图像和文本特征。它需要大量数据,其中分类可能进一步复杂化。尽管已经有研究将文本和图像都考虑在一起用于训练“视觉单词”,但是这些依赖于每个视觉描绘的词的最佳可能定义。
一个研究已经缓解了这一问题,阿姆斯特丹大学的研究人员设计了一个“codebook”,这包含了通过ML映射到图像特征通用的词汇表。研究人员在五个数据集上测试这些数据,发现图像单词匹配明显更好。
上述少数案例仅涵盖了ML的文本方面。像这样,ML包含许多不同的数据,如图像,视频,代码等。如果加入更多高质量数据,歧义将更少。此外,ML理想化的目标应该是精确的,并且与图中ML项目的要求一致。