用细胞生物学破解人工智能黑箱:揭示它的内部运作机制
2018年03月15日 由 yining 发表
768985
0
当今深度神经网络以一种神秘的方式运作。这种神秘的方式就是黑箱。我们可能不知道黑箱人工智能系统是如何工作的,但我们知道它确实起作用了。
一项新的研究将神经网络映射到一个简单的酵母细胞内的成分,这使得研究人员可以在工作中观察人工智能系统。在这个过程中,它让他们了解了细胞生物学。由此产生的技术可以帮助人们寻找新的抗癌药物和个性化治疗。
首先,介绍一下当今的机器学习系统中使用的神经网络的基本知识。
计算机科学家通过设置层次来为神经网络提供框架,每一层都包含数千个执行微小计算任务的“神经元”。训练者在数据集里输入(数百万张猫和狗的照片,数以百万计的动作,数百万的驱动动作和结果),系统连接了层中的神经元,从而形成了结构的计算序列。该系统通过神经网络来运行数据,然后检查它执行任务的程度(它能准确地区分猫和狗,等等)。最后,它重新排列神经元之间的连接模式,再次运行数据集,检查新的模式是否产生了更好的结果。当神经网络能够非常精确地完成任务时,那么训练就是成功的。
如今,从简单地为互联网整理动物的图片,在围棋游戏中击败了大师,再到让自动驾驶汽车在高速公路上飞驰,黑箱人工智能系统正在取得非凡的成就。
加州大学圣地亚哥分校的生物工程和医学教授Trey Ideker说,尽管这些系统被称为神经网络,但它们仅仅是受到人类神经系统的启发。
“看看AlphaGo的程序,虽然它打败了围棋大师,但系统的内部工作是完全混乱的;它看起来不像人类的大脑,”Ideker说。
“它们已经进化出了一种全新的东西,恰好能做出正确的预测。”
目前,Ideker领导了一项关于细胞生物学的新研究,他开始着手做一些不同的事情。他不仅想要使用神经网络来得到想要的结果,还要向研究人员展示它是如何得出这些结果的。通过将神经网络映射到酵母细胞的组成部分,他的团队可以了解生命的运作方式。“我们感兴趣的是一种特殊的结构,它不是由计算机科学家优化的,而是由进化来优化的。”Ideker说道。
这种叫做DCell的神经网络可以准确地预测酵母细胞的生长和繁殖,就像实验室实验一样。
这个项目是可行的,因为啤酒酵母(brewer’s yeast),一种单细胞生物,从19年代开始就被研究为一个基本的生物系统。“这很方便,因为我们有很多关于细胞生物学的知识可以被带到餐桌上,”Ideker说。“我们对酵母细胞的结构了解很多。”
所以他的团队的神经网络层映射到酵母细胞的组件,从最微观的元素(组成DNA核苷酸),向上移动到更大的结构如核糖体(从DNA运行指令到和制造蛋白质),最后到细胞器,如线粒体和核(细胞的运行操作)。总的来说,他们的神经网络,被称为DCell,利用了2526个来自酵母细胞的子系统。
DCell是一个功能完善的啤酒酵母细胞的模型,它可以作为一款在线应用程序供研究人员使用。
DCell允许研究人员改变一个细胞的DNA(它的遗传密码),并观察这些变化是如何变化的,从而改变它的生物过程,然后是细胞的生长和繁殖。它的训练数据集包括几百万个真实酵母细胞基因突变的例子,以及关于这些突变结果的信息。
研究人员发现DCell可以利用它的模拟酵母来准确预测细胞的生长。由于这是一个“可见”的神经网络,研究人员可以看到当他们在DNA上乱搞时,细胞机制被改变了。
这种透明意味着DCell有可能被用于细胞的硅研究,从而避免了昂贵和耗时的实验室实验的需要。如果研究人员能够找到不仅仅是简单的酵母细胞和复杂的人类细胞的模型,那么其影响将是巨大的。“如果你能构建一个人体细胞的完整模型,并在其上进行模拟,”Ideker说,“那将彻底改变药物和药物开发的精准度。”
癌症是研究中最明显的疾病,因为每个癌症患者的肿瘤细胞都有一种独特的突变组合。Ideker说:“你可以用病人的基因组和突变启动这个模型,它会告诉你这些细胞的生长速度有多快,以及癌症有多严重。”
更重要的是,制药公司在寻找新的抗癌药物时,利用细胞生长作为成功或失败的标准。他们观察大量的分子,这些分子会打开或关闭不同的基因,并要求每个分子:这种潜在的药物是否会导致肿瘤细胞停止增殖?
从酵母菌升级到人类细胞并不是一件容易的事。研究人员需要收集足够多的关于人类患者的信息,从而形成一个神经网络的训练数据集——他们需要数以百万计的记录,包括病人的基因资料和他们的健康状况。但Ideker预测,这些数据将很快积累起来。他说:“人们对测序病人基因组有了大量的关注。”
更棘手的部分是收集关于人类癌症细胞如何工作的知识,这样神经网络就可以被映射到它的组成部分。Ideker现在是一个名为“癌症细胞地图计划”的组织的成员,该联盟旨在帮助应对这一挑战。对癌症细胞的生物过程进行编目是很困难的,因为突变不仅会改变细胞的功能,而且还可以上下移动,并且可以以复杂的方式进行协调。
尽管如此,Ideker仍然希望他能够利用一种叫做迁移学习的机器学习技术,从一个将酵母细胞模型转化为一个模拟人类细胞的神经网络。“这好比你建立了一个识别猫的系统,你就不需要再训练整个神经网络来识别松鼠了。”他说。