论文笔记八【3D equivariant diffusion for target-aware molecule generation and affinity prediction】

技术文档

论文笔记_大作业PPT: 这是我自己做的配套PPT，仅供参考 (gitee.com)

今天给大家介绍的论文是《3D equivariant diffusion for target-aware molecule generation and affinity prediction》，发表在2023年的ICLR会议中，据文章所述，这是首个用于靶点感知药物设计的概率扩散模型。

一、背景

现有主流的分子生成模型通常基于SMILES字符串（一维）或图（二维），但这两种表示方式都未考虑分子三维空间中的相互作用。随着结构生物学和蛋白质结构预测的最新进展，越来越多的结构数据得以获取，为机器学习算法在三维结合复合物中直接设计药物提供了新的机会——

如将三维空间表示为体素化网格，并使用三维卷积神经网络（3D CNN）对蛋白和分子进行建模。然而，该方法不具备旋转等变性，无法充分捕捉三维归纳偏差。此外，体素化操作的计算量会随着口袋大小的立方增长，导致较差的可扩展性。

一些先进方法通过不同的建模技术实现 SE(3)-等变性（Special Euclidean group in 3D）。然而，这些方法采用自回归采样策略，即基于学习到的原子类型和原子坐标概率密度逐个生成原子。这类方法存在多个局限性，举其中一个例子——模型在采样时设定了一种不自然的生成顺序，无法考虑整个三维结构的整体概率。例如，在已将 n−1 个碳原子放置在同一平面的情况下，模型较容易正确放置第 n 个原子以形成苯环。但对于前几个原子的放置，由于缺乏足够的上下文信息，模型难以做出准确预测，容易生成不合理的结构片段。

因此，作者提出了 TargetDiff，这是一种端到端的三维全原子扩散模型，以非自回归方式生成靶点感知分子。具体而言，作者将蛋白结合口袋和小分子表示为三维空间中的原子点集，每个原子都关联一个三维笛卡尔坐标。作者为连续的原子坐标和离散的原子类型定义了一个扩散过程，其中噪声逐步加入，并利用 SE(3)-等变图神经网络学习联合生成过程，该网络交替更新分子的原子隐藏嵌入和原子坐标。

二、模型框架

因为论文中并没有画模型图，只给出了算法，所以这部分结合算法来讲。

2.1算法1：该扩散模型的训练过程

输入蛋白-配体绑定数据集。在这里，P 代表蛋白质的结构信息，M 代表配体的分子信息。模型的最终目标是训练一个神经网络θ，它可以通过输入的信息生成相应的分子。首先要从均匀分布（0，T）中采样扩散时间t，t=0 代表初始状态（无噪声），t=T 代表完全扩散（最大噪声），这样可以让模型在训练时学习如何处理不同程度的噪声。然后将蛋白质分子的质心（Center of Mass, CoM）对齐到原点，确保训练过程中蛋白质的坐标不会因为位移而影响预测结果。

之后进行原子坐标的扩散，不断扰动原子坐标，逐步向高斯噪声转变，模拟一个从真实分子结构到噪声分子的过程，然后训练模型学会反向去噪。x0是初始（无噪声）的分子坐标。xt是扩散到时间 t 后的分子坐标。at是时间步 t 处的扩散系数（控制噪声强度，其值越小，扩散扰动越明显），ϵ∼N(0,I) 是从标准正态分布采样的噪声。

然后进行原子类型的扩散，不断扰动原子类型，逐步将原子类型向均匀分布转换，使得原子类型信息在扩散过程中变得模糊，然后让模型学会如何从噪声中恢复它们。at控制扰动强度，K代表有K种原子类型。

现在通过经网络θ接收当前噪声状态[xt，vt]，预测去噪后的原始分子及其类型[x0，v0]。再就是计算后验概率、MSE损失和KL散度损失，然后根据梯度下降法更新神经网络参数，如果没有收敛就继续训练。

2.2算法2：使用扩散模型生成新的配体分子

为什么叫采样而非分子生成：采样（sampling）本质上是从一个概率分布中抽样生成具体实例的行为。在分子生成任务中，作者的目标是学习一个模型，使其能够生成类似真实分子的结构。这意味着作者希望模型学会一个分布p(x)，其中，x 表示分子结构。这个分布通常很复杂，不能直接写出显式公式。去噪过程就对应着在每一步的后验分布p(xt−1∣xt) 中采样（sampling）一个状态。因为每一步都是从一个分布中抽样而非确定选择，即便输入同一个蛋白质口袋，不同采样轨迹可能生成不同的配体，从而保证多样性。这与“直接预测”不同，采样过程可以自然地探索多个可能的解。所以一般都使用“采样”来描述分子生成，即模型不是直接输出某个确定的分子结构，而是通过从一个学到的概率分布中抽样得到一个分子结构。

输入蛋白质结合位点P和训练好的神经网络θ，输出配体分子结构M。首先根据蛋白结合口袋的大小，从先验分布（prior distribution）中采样生成的配体原子数。比如较大的结合口袋可能生成更大的配体，较小的结合口袋可能生成较小的配体，之后同样的将蛋白质分子的质心（Center of Mass, CoM）对齐到原点，确保训练过程中蛋白质的坐标不会因为位移而影响预测结果。

然后采样原子的初始噪声状态，从标准正态分布N(0,I)中采样表示分子的坐标初始状态是纯噪声，Gumbel-Softmax 采样说明最初的原子类型是从均匀随机分布中抽取的，这个步骤就是在完全噪声的空间里随机初始化一个分子。

进行逐步去噪，从T开始，直到t=1，从纯噪声状态逐渐生成合理的分子结构——其中，每一次去噪都会预测一次当前状态下的“无噪声”分子x0，同时从后验分布pθ(xt-1|xt,x0)采样新的坐标xt-1，从后验分布pθ(vt-1|vt,v0)中采样新的原子类型vt-1，通过这样的迭代逐步修正原子坐标和原子类型，直到收敛至合理的分子坐标和合理的化学元素。

2.3具体参数

TargetDiff包含 9 层等变（equivariant）神经网络，每层是一个 Transformer，隐藏维度为 128，注意力头数为 16。设置扩散步数为 1000，模型使用 Adam 优化器进行训练，初始学习率为 0.001，batch_size为 4，作者对原子类型的损失乘以一个因子 α = 100，以平衡坐标损失和类型损失的尺度。在训练过程中，作者对蛋白质原子坐标添加标准差为 0.1 的高斯噪声作为数据增强。学习率采用指数衰减策略，衰减因子为 0.6，最低学习率为 1e-6。当验证损失在连续 10 次评估中没有提升时触发衰减。每 2000 步训练会进行一次评估。作者在一张 NVIDIA GeForce GTX 3090 GPU 上训练模型，训练可在 24 小时内、20 万步内收敛。

三、实验结果

首先，作者绘制了所有原子间距离及碳-碳键距离的经验分布（见图），并将其与参考分子的经验分布进行对比。从整体原子间距离来看，TargetDiff 能很好地捕捉整体分布，而 AR 和 Pocket2Mol 在小原子间距上存在过度表现（over-representation）。由于 liGAN 受到其有限的体素化分辨率限制，它只能捕捉整体形状，而无法准确建模具体的模态（modes）。

类似地，在参考分子的结构中，不同类型的碳-碳键形成了两种代表性距离模式。在 TargetDiff 生成的分子结构中，作者仍能观察到这两种模式，而在 liGAN、AR 和 Pocket2Mol 生成的分子中仅能观察到单一模式。作者进一步通过 Jensen-Shannon 散度（JSD）测量不同模型生成的分子结构与参考分子键长分布的相似度。结果表明，TargetDiff 在所有主要键类型上均明显优于其他方法。

其次，作者探讨了 TargetDiff 是否能够一致性地生成刚性子结构（rigid sub-structure）或片段（fragment），例如所有碳原子在苯环中是否共面。为了评估这种一致性，作者使用 Merck 分子力场（MMFF）（Halgren, 1996）优化生成的分子结构，并计算 MMFF 优化前后刚性片段（不含可旋转键）的均方根偏差（RMSD）。如图所示，TargetDiff 能够生成更加一致的刚性片段。

图显示了所有生成分子在100个测试结合口袋（binding pocket）中的中位 Vina 能量（Vina energy），该值由 AutoDock Vina (Eberhardt et al., 2021) 计算。基于 Vina 能量，TargetDiff 生成的分子在 57% 的目标上表现出最佳的结合亲和力，而 liGAN、AR 和 Pocket2Mol 仅在 4%、13% 和 26% 的目标上表现最佳。

在高亲和力配体（high-affinity binder）方面，平均 58.1% 的 TargetDiff 生成分子比参考分子具有更好的结合亲和力，这一比例明显优于其他基线方法（见表）。此外，作者在表中计算了 Vina Score 和 Vina Min，其中 Vina Score 直接计算或在不重新对接（re-docking）的情况下进行局部优化。这些指标直接反映了模型生成的 3D 分子质量，TargetDiff 也在这些指标上优于所有基线方法。

为了更深入理解各模型生成分子的差异，作者从每个模型生成的分子中选取样本，并比较其在两个结合口袋中的表现，TargetDiff 在这两个口袋上的表现均优于 AR。如图所示，TargetDiff 生成的分子能够填满整个结合口袋，而 AR 生成的分子只能部分覆盖口袋空间，可能因此降低了对目标的特异性，导致“非靶标效应”（off-target effects）。以 AR 生成的 4QLK A 口袋分子为例，尽管其原子数量与 TargetDiff 生成的分子相近（27 vs. 29），但 AR 的前沿网络（frontier network）在放置原子时过度深入结合口袋，而未考虑整体结构，从而导致无法完全覆盖结合口袋，最终导致较差的结合亲和力。

为了进一步量化这种影响，作者测量了参考分子的质心（CoM）与生成分子的质心之间的距离。如图所示，由于 AR 采用了顺序生成的方式，其 CoM 偏移量更大（1.79 Å vs. 1.45 Å），导致较差的结合构象（binding pose）和较低的结合亲和力。

四、总结与思考

针对扩散模型，对于幻觉问题、大量的三角形和苯环的生成（如文中的七元环），这样奇怪的拓扑结构还需要进一步限制。本文只有针对原子的扩散，如果将键生成纳入扩散过程会是一个有趣的方向，这样作者就可以跳过键推断算法，而且更有整体一致性。

对于写文章来说，这篇文章也就是把扩散模型应用到分子生成任务中，然后稍微加一点自己的工作，客观上不算难度大、工作量大，但是却能投到顶会上。所以我感觉科研要紧跟热点，尝试用最新的方法放到自己的领域，如果效果不错，就能试着发文章了。

论文笔记八【3D equivariant diffusion for target-aware molecule generation and affinity prediction】

一、背景