在应对气候变化和推动下一代计算机技术迅速发展的背景下,新材料的发现显得尤为关键。然而,当前计算和实验方法在探索庞大的化学空间时面临显著局限。尽管人工智能已成为材料发现的有效工具,但公开数据和开放预训练模型的缺乏成为制约其发展的主要瓶颈。密度泛函理论(DFT)计算对于研究材料稳定性和性能至关重要,但高昂的计算成本限制了其在材料搜索空间中的广泛应用。
近日,Meta Fundamental AI Research (FAIR)的研究人员推出了Open Materials 2024(OMat24)数据集,该数据集包含超过1.1亿个DFT计算结果,成为该领域最大的公开可用数据集之一。同时,他们还介绍了基于OMat24数据集训练的最先进的图神经网络(GNN)模型——EquiformerV2。该模型在Matbench Discovery排行榜上取得了领先结果,为材料科学领域建立了坚实的基础。
OMat24数据集涵盖了从平衡结构到非平衡结构中采样的多样原子结构,包含超过1.18亿个带有能量、力和晶胞应力标签的原子结构。这些结构是通过玻尔兹曼采样、从头分子动力学(AIMD)和抖动结构松弛等技术生成的,特别注重非平衡结构,以确保在OMat24上训练的模型适用于动态和远离平衡的性质。数据集的元素组成跨越了大部分周期表,重点关注无机块材料。
在OMat24数据集和其他数据集(如MPtraj和Alexandria)上训练的EquiformerV2模型展现了卓越的性能。通过增加去噪目标的训练,模型在预测性能上得到了显著提升。在Matbench Discovery基准测试中,使用OMat24训练的EquiformerV2模型达到了0.916的F1分数和20 meV/原子的平均绝对误差(MAE),创下了材料稳定性预测的新纪录。这些结果明显优于其他同类模型,凸显了在OMat24这样的大规模多样化数据集上进行预训练的优势。
OMat24数据集和模型的引入标志着人工智能辅助材料科学的重大进展。这些模型能够以高度准确性预测关键性能,如形成能量,对于加速材料发现具有极高的实用价值。此外,这一开源发布使研究界能够在此基础上进行更深入的研究,进一步发挥人工智能在通过新材料发现应对全球挑战中的作用。
目前,OMat24数据集和模型已在Hugging Face上提供,包括预训练模型的检查点,为材料科学中的人工智能研究人员提供了宝贵的资源。Meta的FAIR化学团队根据宽松的许可证使这些资源可用,以促进更广泛的采用和使用。此外,关于OpenCatalyst团队在X上的最新更新也提供了更多背景信息,展示了这些模型如何不断推动材料稳定性预测的极限。
这一系列的进展不仅为材料科学领域带来了新的突破,也为应对气候变化和推动下一代计算机技术的迅速发展提供了有力支持。