模型:

seyonec/ChemBERTa-zinc-base-v1

英文

ChemBERTa: 训练一种用于对化学SMILES字符串进行掩码语言建模的类BERT转换器模型。

化学和材料科学的深度学习仍然是一个新颖的领域,具有很大的潜力。然而,在计算化学+机器学习领域中,基于迁移学习的方法在NLP和计算机视觉等领域的普及尚未得到有效开发。通过使用HuggingFace的模型套件和ByteLevel tokenizer,我们能够在一个常见的基准数据集ZINC上对10万个SMILES字符串进行训练。

在5个epochs的训练中,RoBERTa模型达到了0.398的不错损失,但如果继续训练更多epochs,损失很可能会继续下降。该模型可以预测SMILES序列/分子中的标记,从而可以预测可发现化学空间中的分子的变体。

通过应用模型学习到的功能团和原子的表示,我们可以尝试使用学习到的表示作为分子图结构上的图卷积和注意力模型的特征,以及对BERT进行微调来解决毒性、溶解度、药物样性和合成可访问性等问题。最后,我们提出使用注意力可视化作为一种有助于化学从业者和学生快速识别各种化学性质中重要亚结构的工具。

此外,通过以前的研究,可以看到注意力机制的可视化在化学反应分类方面具有极高价值。开源大规模转换器模型(如RoBERTa)与HuggingFace的应用可能加速这些个别研究方向的进展。

可以在以下链接中找到一个包含训练、上传和评估笔记本(包括对Remdesivir等化合物的样本预测)的存储库。所有笔记本都可以复制到新的Colab运行时以便轻松执行。

感谢您查阅!

  • Seyone