本文介绍了一项由Nikolaj Rørbæk Knøsgaard和Kristian Sommer Thygesen在丹麦技术大学(Technical University of Denmark)计算原子尺度材料设计(CAMD)部门进行的研究,并于2022年发表在《Nature Communications》期刊上。该研究的主要目标是利用机器学习(Machine Learning, ML)方法预测二维材料的准粒子(quasiparticle)能带结构,特别是通过密度泛函理论(Density Functional Theory, DFT)计算的结果来预测G0W0修正的能带结构。
能带结构是晶体材料中最基本且重要的特性之一,它描述了电子在固体中的量子力学能级与其动量之间的关系。传统的DFT方法虽然广泛应用于材料电子结构的计算,但其单粒子能量通常无法准确预测能带结构。相比之下,G0W0自能方法(G0W0 self-energy method)被认为是计算准粒子能带结构的“金标准”,因为它能够超越平均场描述,显式考虑交换和多体屏蔽效应。然而,G0W0方法的计算成本极高,限制了其在大规模研究中的应用。近年来,机器学习作为一种无需进行昂贵量子力学计算的方法,吸引了广泛关注。然而,大多数现有的机器学习模型仅能预测带隙大小,而无法预测完整的k分辨能带结构。
本研究的目标是通过机器学习方法,利用DFT计算的结果来预测G0W0修正的能带结构。具体来说,研究者提出了一种基于能量分解的算子矩阵元素(Energy Decomposed Operator Matrix Elements, ENDOME)和径向分解投影态密度(Radially Decomposed Projected Density of States, RAD-PDOS)的指纹(fingerprint)方法,用于描述电子态的局部环境。通过这些指纹,研究者训练了一个梯度提升模型(Gradient Boosting Model),以预测未见过材料的准粒子能量修正。
数据集的构建:研究使用了286个非磁性二维半导体的G0W0能带结构数据,共包含46,000个准粒子能量-动量对(εqpnk; k)。这些数据来自计算二维材料数据库(Computational 2D Materials Database, C2DB)。
指纹的生成:研究者提出了两种指纹生成方法:
机器学习模型的训练:使用XGBoost包构建了一个基于梯度提升算法的机器学习模型。模型的目标是预测G0W0修正的准粒子能量。训练集包含228个材料(37,851个电子态),测试集包含58个材料(8,766个电子态)。
特征分析:研究者还分析了不同特征对模型预测的重要性,特别是材料的静态极化率(polarisability)对模型性能的影响。
模型性能:模型在预测单个态能量时的平均绝对误差(Mean Absolute Error, MAE)为0.14 eV,当加入材料的静态极化率后,误差进一步降低了30%。对于带隙的预测,MAE为0.18 eV。
能带结构预测:研究者使用训练好的模型预测了约700种二维半导体的G0W0能带结构,并将结果发布在C2DB数据库中。模型能够准确预测带隙的大小,并且在某些情况下能够捕捉到带隙类型(直接或间接)的变化。
有效质量计算:通过模型预测的G0W0能量,研究者还计算了材料的有效质量(effective mass)。结果表明,G0W0方法预测的有效质量与DFT方法相比有显著差异,特别是在价带和导带的极值点附近。
本研究提出了一种基于DFT计算结果的机器学习方法,能够以较低的计算成本预测G0W0修正的能带结构。通过引入ENDOME和RAD-PDOS指纹,模型能够准确预测单个态的准粒子能量修正,并且在带隙预测方面表现出色。该方法为未来在更大规模的材料研究中应用G0W0方法提供了可能性,特别是在二维材料的能带结构预测中具有重要的应用价值。
新颖的指纹方法:研究者提出了两种新的指纹生成方法(ENDOME和RAD-PDOS),用于描述电子态的局部环境,为机器学习模型提供了有效的输入特征。
高效的机器学习模型:通过梯度提升算法,模型能够以较低的计算成本预测G0W0修正的能带结构,显著降低了传统G0W0方法的高计算负担。
广泛的应用前景:该方法不仅适用于二维材料,还可以扩展到三维晶体和非周期性结构(如分子和表面)的能带结构预测。
本研究为材料科学领域提供了一种高效且准确的能带结构预测方法,特别是在二维材料的电子结构研究中具有重要的科学和应用价值。通过结合DFT计算和机器学习,研究者展示了如何利用现有的计算资源实现高质量的准粒子能带结构预测,为未来的材料设计和发现提供了新的工具。