基于不变性原理的图分布外泛化方法

2024年07月19日 由 alex 发表 243 0

图机器学习仍然是一个热门的研究方向,尤其是在人工智能促进科学发展(AI4Science)的浪潮推动下,图数据的应用越来越多样化。与一般图像和文本数据不同,图是一种数学抽象,它描述了实体的属性及其在系统中的相互作用。在这方面,图不仅可以表示现实世界中不同尺度的物理系统(如分子、蛋白质相互作用、社交网络等),还可以描述某些抽象的拓扑关系(如场景图、工业流程、思维链等)。


如何为图数据建立通用基础模型是最近备受关注的研究课题。尽管图神经网络(GNN)和图变换器等现有方法展示了强大的表示能力,但机器学习模型在图结构数据上的泛化仍然是一个未充分探索的开放性问题。一方面,图数据所涉及的非欧几里得空间和几何结构大大增加了建模的难度,使得旨在增强模型泛化的现有方法难以取得成功。另一方面,图数据中的分布偏移,即训练数据和测试数据之间的分布差异,来源于更复杂的引导因素(如拓扑结构)和外部环境,使得这一问题的研究更具挑战性。


9


问题与动机


开放世界中的分布变化

由于现实世界中的模型往往需要与开放、动态和复杂的环境进行交互,因此泛化问题至关重要。在实际情况中,由于观察和资源有限,训练数据不可能涵盖所有可能的环境,模型也不可能在训练过程中预见未来所有潜在的情况。然而,在测试阶段,模型很可能会遇到与训练分布不一致的样本。分布外泛化(OOD)问题的重点是机器学习模型在训练分布之外的测试数据上的表现。


10


在这种情况下,由于测试数据/分布在训练过程中是完全未见/未知的,因此必须以数据生成的结构假设为前提。反之,如果没有任何数据假设,分布外泛化是不可能的(无免费午餐定理)。因此,有必要事先说明,OOD 问题的研究目标不是要消除所有假设,而是要:1)在合理假设下最大限度地提高模型的泛化能力;2)适当增加/减少假设,以确保模型有能力处理某些分布变化。


图形上的分布外泛化

一般的分布偏离(OOD)问题可以简单地描述为:如何设计有效的机器学习方法?


当 p(x,y|train)≠p(x,y|test) 时,如何设计有效的机器学习方法?


在此,我们按照文献中常用的设置,假设数据分布受底层环境控制。因此,在给定的环境 e 下,数据生成可以写成 (x,y)∼p(x,y|e) 。那么,对于 OOD 问题,可以假设训练数据和测试数据产生于不同的环境。因此,问题可以进一步阐述为


如何学习一个预测模型 f,使其在所有环境 e∈E 中都表现(同样)良好?


具体来说,对于图结构数据,输入数据还包含结构信息。在这方面,根据图结构的存在形式,问题可进一步分为两类:节点级任务和图级任务。下图展示了两类任务下 OOD 问题的表述。


11


如前所述,OOD 问题需要对数据生成进行一定的假设,这为构建可泛化的机器学习方法铺平了道路。下面,我们将具体介绍两类方法,它们分别利用不变性原理和因果干预来实现图上的分布外泛化。


利用不变性原理实现泛化

基于不变性原理的学习方法通常被称为不变性学习,旨在设计新的学习算法,引导机器学习模型利用数据中的不变关系。不变关系尤其是指输入 x 和标签 y 之间的预测关系,这些关系在所有环境中都普遍存在。因此,当预测模型 f(如神经网络)成功学习到这种不变关系时,它就能在不同环境的数据中进行泛化。相反,如果模型学习到了虚假的相关性,特别是指 x 和 y 的预测关系只在某些环境中成立,那么过度提高训练精度就会误导预测器过度拟合数据。


根据上述说明,我们注意到不变式学习依赖于数据生成中的不变式假设,即 x 和 y 之间存在一种在不同环境中保持不变的预测关系。在数学上,这可以表述为:


存在一个映射 c,使得 z=c(x) 满足 p(y|z,e)=p(y|z), ∀e∈E。


在这方面,我们自然有两个后续问题:i) 如何在图上定义不变性假设?ii)对于常见的图数据来说,这是一个合理的假设吗?


图的不变性假设

受用于图同构测试的 Weisfeiler-Lehman 算法的启发,考虑了以每个节点为中心的自我图,并描述了自我图中所有节点的特征对中心节点标签的贡献。后者被具体分解为不变特征和虚假特征。这一定义既考虑了拓扑结构,又有足够的灵活性。下图展示了 定义的不变假设,并提供了一个引文网络的例子。


12


议的方法:探索推断的风险最小化

在不变性假设下,一种自然的方法是正则化不同环境下的损失差异,以促进不变关系的学习。然而,现实世界的数据通常缺乏环境标签,即每个实例与其环境之间的对应关系是未知的,因此无法直接计算不同环境下的损失差异。为了应对这一挑战,提出了探索-外推法风险最小化(EERM),即引入 K 个上下文生成器来增强和丰富输入数据,从而模拟来自不同环境的输入数据。通过理论分析,证明了新的学习目标可以保证所制定的分布外概括问题得到最优解。


13


除了生成(虚拟)环境外,最近的另一项研究建议从观测数据中推断潜在环境,并引入一个额外的环境推断模型,在训练过程中与预测器一起迭代优化。同时, 通过数据增强来实现 OOD 泛化,利用不变性原则来指导数据增强过程,从而保留不变特征。


通过因果干预进行泛化

不变性学习需要假设数据中存在可学习的不变关系。这在一定程度上限制了此类方法的适用性,因为模型只能在与训练数据具有一定不变性的测试数据上进行可靠的泛化。对于违反这一条件的非分布测试数据,模型的泛化性能仍是未知数。


图学习的因果视角

首先,让我们考虑一下图神经网络等机器学习模型通常会引起的变量之间的因果依赖关系。我们有输入 G(例如以图中每个节点为中心的自我图)、标签 Y 和影响数据分布的环境 E。在使用标准监督学习目标(如经验风险最小化或等价最大似然估计)进行训练后,它们之间的依赖关系如下图所示。


14


上面的因果图揭示了传统训练方法的局限性,特别是它们无法实现分布外泛化。在这里,输入 G 和标签 Y 都是环境 E 的结果,这表明它们因环境 E 而相关。在训练过程中,模型不断拟合训练数据,导致预测器 f 学习到特定环境中输入和标签之间的虚假相关性。


假设我们需要预测社交网络中用户(节点)的兴趣,注意用户兴趣受年龄和社交圈等因素的影响很大。因此,如果用大学社交网络的数据来训练预测器,它可能会很容易预测出用户对 “篮球 ”的兴趣,因为在大学环境中,由于环境本身的原因,对篮球感兴趣的用户比例较高。然而,当模型转移到 LinkedIn 社交网络时,这种预测关系可能就不成立了,因为 LinkedIn 的用户年龄和兴趣更加多样化。这个例子突出表明,理想的模型需要学习输入和标签之间的因果关系,以便在不同环境中进行泛化。


为此,一种常见的方法是因果干预,即切断因果图中 E 和 G 之间的依赖路径。具体做法是破坏环境对输入和标签的影响,从而引导模型学习因果关系。下图说明了这种方法。在因果推理术语[15]中,这种旨在消除特定变量依赖路径的干预可以用 “做 ”操作符来表示。因此,如果我们的目标是在训练过程中强制切断 E 和 G 之间的依赖路径,这实际上意味着用 p(Y|do(G))取代传统的优化目标 p(Y|G)(观测数据的可能性)。


15


然而,计算这一学习目标需要观察到数据中的环境信息,特别是每个样本 G 与其环境 E 之间的对应关系。


建议的方法:变式上下文调整

为使上述方法切实可行,利用数据驱动方法,从数据中推导出潜在环境,从而为因果干预目标推导出一个变式下界,以解决无法观测环境的问题。特别是,引入了一个变分分布 q(E|G),从而得到了下图所示的代理学习目标。


16


新的学习目标由三个部分组成。将其实例化为环境推理模型、GNN 预测器和环境的(非参数)先验分布。前两个模型包含可训练参数,并在训练过程中共同优化。


为了验证所提方法的有效性,将该模型应用于各种具有分布偏移的真实图数据集。具体来说,由于所提方法 CaNet 不依赖于特定的骨干模型,分别使用 GCN 和 GAT 作为骨干模型,并将该模型与最先进的 OOD 方法(包括之前引入的方法 EERM)进行了比较。下表显示了部分实验结果。


17


因果干预中的隐含假设

到目前为止,我们已经介绍了因果干预方法,该方法显示了图上分布外泛化的竞争性。正如本博客前面提到的,实现有保证的泛化需要对数据的生成方式做出必要的假设。这自然引发了一个问题: 因果干预泛化需要哪些假设?与不变式学习不同,因果干预并不从显性假设出发,而是在建模和分析过程中依赖于隐性假设:


在输入和标签之间只存在一个混杂因素(环境)。


这一假设在一定程度上简化了对真实系统的分析,但也带来了近似误差。对于更复杂的情况,未来仍有很大的探索空间。


利用隐式图结构进行泛化

在前面的讨论中,我们假设输入数据的结构信息是可观察到的且完整的。对于更一般的图数据,结构信息可能是部分观察到的,甚至是完全未知的。这类数据被称为隐式图结构。此外,图上的分布变化可能涉及影响数据分布的底层结构,这给描述几何结构对数据分布的影响带来了尚未解决的难题。


为了解决这个问题,Wu 等人最近的工作“Learning Divergence Fields for Shift-Robust Graph Representations”(ICML2024)利用了连续扩散方程和信息传递机制之间的内在联系,整合了前面介绍的因果干预方法。这一设计旨在开发一种学习方法,它既适用于显式图结构,也适用于隐式图结构,在这种图结构中,分布偏移构成了泛化挑战。


从信息传递到扩散方程

信息传递机制是现代图神经网络和图转换器的基础设计,它传播来自各层其他节点的信息,以更新中心节点的表示。从本质上讲,如果我们把神经网络的层看作是连续时间的离散近似值,那么信息传递就可以看作是图上离散形式的扩散过程。下图说明了它们之间的类比关系。


18


特别是,扩散方程中的扩散率(用 d_u 表示)控制着扩散过程中节点之间的相互作用。当采用局部或全局扩散形式时,扩散方程的离散迭代分别导致图神经网络和变换器的层更新公式。


然而,确定性扩散无法模拟实例之间相互作用的多方面影响和不确定性。因此, 建议将扩散性定义为概率分布的随机样本。相应的扩散方程将产生一个随机轨迹(如下图所示)。


19


即便如此,如果直接应用传统的监督学习目标进行训练,上述模型也不能很好地泛化分布变化。前面讨论的图形学习的因果视角也反映了这一问题。具体来说,在本文所考虑的扩散模型中,输入 x(如图)和输出 y(如图中的节点标签)通过扩散性联系在一起。扩散性可以看作是数据集特定环境的体现,决定了实例之间的相互依赖关系。因此,在有限的训练数据上训练出来的模型往往会学习到训练集特有的相互依存模式,从而无法泛化到新的测试数据中。


因果引导的发散场学习

为了应对这一挑战,我们再次采用因果干预,以消除训练过程中扩散率 d 与输入 x 之间的依赖关系。与之前的工作不同,在之前的工作中,从输入到输出的映射是由预测器给出的,而在这里,从 x 到 y 的依赖路径涉及一个多步骤的扩散过程(相当于 GNNs/Transformers 中的多层更新)。因此,在扩散过程的每一步都需要因果干预。不过,由于扩散性是建模的抽象概念,无法直接观察(与前面讨论的环境类似),[16] 扩展了 [14] 中使用的变分方法,为与扩散过程相关的学习目标推导出了一个变分下限。这可以作为扩散过程中每一步因果干预的近似目标。


20


作为上述方法的实现,提出了三种具体的模型设计:

  • GLIND-GCN:将扩散性视为由归一化图邻接矩阵实例化的常数矩阵;
  • GLIND-GAT:将扩散性视为由图注意网络实现的随时间变化的矩阵;
  • GLIND-Trans: GLIND-Trans:将扩散性视为由全局全对注意力网络实现的随时间变化的矩阵。


特别是对于 GLIND-Trans,为了解决全局注意力计算的二次复杂性问题, 进一步采用了 DIFFormer [19] 的线性注意力函数设计。


下表列出了涉及隐式结构的部分实验结果。


21


总结

本文简要介绍了分布外泛化(OOD)的最新进展,主要集中于三篇已发表的论文。这些论文从不变性学习和因果干预的角度切入问题,提出了适用于显式和隐式图结构的方法。如前所述,我们注意到 OOD 问题需要对数据生成进行假设,这是有效解决方案的前提条件。在此基础上,未来的研究可以侧重于完善现有方法,或分析在既定假设条件下通用性的局限性。还可以探索如何在其他假设条件下实现泛化。

文章来源:https://medium.com/towards-data-science/towards-generalization-on-graphs-from-invariance-to-causality-c81a174ac37b
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消