允许机器学习提问可以让它变得更聪明
2023年07月28日 由 Samoyed 发表
807413
0
杜克(Duke)大学的生物医学工程师展示了一种新方法,可以显著提高机器学习模型在使用一小部分可用数据时寻找新分子疗法的有效性。通过使用一种算法主动识别数据集中的缺失,研究人员在某些情况下可以将准确性提高一倍以上。
这种新方法可以使科学家更容易地识别和分类分子,这些分子的特征可能对开发新的候选药物和其他材料有用。
这项研究发表在6月23日由英国皇家化学会出版的Digital Discovery杂志上。
机器学习算法越来越多地用于识别和预测小分子的性质,如候选药物和其他化合物。虽然在计算能力和机器学习算法方面都取得了重大进展,但它们的能力目前受到用于训练它们的现有数据集的限制,这些数据集远非完美。
其中一个主要问题涉及数据的偏差。当有大量的数据点显示出一种特性远远超过另一种特性时,就会出现这种情况,比如一个分子抑制特定蛋白质的潜在能力或其结构特征。
杜克(Duke)大学生物医学工程助理教授Daniel Reker解释说:“这就像你训练一个算法来区分狗和猫的照片,但你给了它10亿张狗的照片来学习,而只有100张猫的照片。”“该算法将非常擅长识别狗,以至于把所有东西都当做狗,它会忘记其他的东西。”
对于药物发现和开发来说,这是一个特别棘手的问题,因为科学家们经常处理的数据集中,99%以上的被测试化合物是“无效的”,只有一小部分分子被标记为潜在有用的。
为了解决这个问题,研究人员使用了一种称为数据子采样的方法,他们的算法从一个小但(可能)有代表性的数据子集中学习。虽然这个过程可以通过给模型提供足够数量的样本来消除偏见,但它也会减少关键数据点,并对算法的整体准确性产生负面影响。为了弥补这一点,研究人员开发了数百种子采样技术来限制丢失的信息量。
但是Reker和他的合作者想要探索一种被称为主动机器学习的技术是否可以解决这个长期存在的问题。
Reker说:“有了主动机器学习,如果算法感到困惑或感觉到数据中的缺失,它能够提出问题或请求更多信息,而不是被动地筛选数据。”“这使得主动学习模型在预测性能方面非常有效。”
通常,Reker和其他研究人员会应用主动学习算法来生成新数据,例如识别新药物,但是Reker和他的团队想要探索的是,如果将该算法应用于现有数据集会发生什么。虽然在其他研究中已经探索了主动机器学习的这种子采样应用,但Reker和他的团队是第一个将该算法应用于分子生物学和药物开发领域的人。
为了测试他们的主动子采样方法的效率,研究小组编制了具有不同特征的分子数据集,包括可以穿过血脑屏障的分子,可以抑制与阿尔茨海默病相关的蛋白质的分子,以及已经被证明可以抑制HIV复制的化合物。然后,他们将主动学习算法与从完整数据集学习的模型以及16种最先进的子采样策略进行了对比测试。
该团队表明,主动子采样能够比每种标准子采样策略更准确地识别和预测分子特征,最重要的是,在某些情况下,比在完整数据集上训练的算法效率高出139%。他们的模型还能够准确地调整数据中的错误,这表明它对低质量的数据集特别有用。
但最令人惊讶的是,该团队发现理想的数据使用量远低于预期,在某些情况下只需要10%的可用数据。
Reker解释说:“在某种程度上,活动子采样模型收集了所需的所有信息,如果添加更多的数据,就会对性能产生不利影响。”“这个问题对我们来说特别有趣,因为这意味着存在一个拐点,即在子样本中更多的信息不再有用。”
雷克和他的团队希望在未来的工作中研究这个拐点,同时他们还计划使用这种新方法来识别潜在治疗靶点的新分子。由于主动机器学习正在许多不同的研究领域流行起来,该团队乐观地认为,他们的工作将帮助科学家们更好地理解这种算法及其对数据错误的鲁棒性。
Reker说:“这种方法不仅提高了机器学习的性能,而且还可以减少数据存储需求和成本,因为它使用的是更精细的数据集。”“这使得机器学习对每个人来说都更具可重复性、可访问性和强大的功能。”
来源:https://techxplore.com/news/2023-07-machine-smarter.html