谷歌大脑研究:AI识别蛋白质结晶,准确率高达94%
2018年07月13日 由 浅浅 发表
390615
0
谷歌大脑团队的成员今天宣布开发了用于识别蛋白质结晶的深层卷积神经网络,准确率约为94%。蛋白质结晶决定了细胞的形状,可以在发现治疗各种疾病的药物中发挥作用。它们十分罕见,一旦你错过了,就有可能会失去发现重要医学新成果的机会。
谷歌大脑首席科学家Vincent Vanhoucke在一篇博文中说道,“数百个实验通常是针对每种蛋白质进行的,虽然设置和成像大多是自动化的,但发现单个蛋白质晶体仍然主要通过视觉检查来完成,因此容易出现人为错误。至关重要的是,错过这些结构可能会导致重要的生物医学失去被发现的机会,从而无法推进更深的发展。”
为了训练人工智能模型,谷歌的研究人员使用了Machine Recognition of Crystallization(MARCO)计划的机器识别技术。
谷歌大脑和MARCO计划之间的工作成果已经开源,在GitHub上发布,并在论文Classification of Crystallization Outcomes using Deep Convolutional Neural Networks中进行了详细介绍。
MARCO计划是几家制药公司和学术研究中心之间的一个联合项目,旨在汇集和托管大型策划结晶图像库,并将其提供给社区,以帮助开发更好的图像分析工具。当该计划的一名成员向谷歌提出一个定义明确的问题,以及五十万个标记图像时,我们接受了尝试将最近的深度学习进展应用于该问题的挑战。
MARCO存储库的样本,表明了数据源之间的可变性程度。
由于成像技术和数据采集方法之间的巨大差异,提出单一的视觉识别问题的方法可能看起来很困难。晶体可能非常小,这使得它们在一个大的图像中成为罕见的结构。
幸运的是,给定足够的训练数据,深度卷积网络非常适合处理视觉外观的极端变化。研究者修改了基本的Inception V3模型,以处理更大的图像,同时仍然能够快速进行训练。该模型实现了一定程度的精确度和召回率,使其在自动评估管道具有实用性。
论文:journals.plos.org/plosone/article?id=10.1371/journal.pone.0198883
更多
图像识别数据集下载“点击”这里