ICML2020 《Contrastive Multi-View Representation Learning on Graphs》 Reading Notes
paper Introduction 本文旨在通过多视图Contrastive Learning 来学习节点表示和图表示。其中对比视图为结构视图(structural view)。本文发现,两个以上的对比视图不会提升性能(我觉得仅是针对本文的Diffusion-based view吧~)。 本文实验性的表明了基于一阶邻居和图扩散视图做CL可以达到最好的效果。 为了将对比学习应用到图表示学习任务,本文提出通过最大化图的不同结构视角的互信息来作为监督信号。通过对提出框架的系统研究,本文展示了一些GCL和visual CL上的不同: (1)将view数量(即增强)增加到两个以上不会提高性能,最好的性能是通过对比来自一阶邻居view的embedding和graph diffusion的embedding,(2) 与对比图编码或多尺度编码相比,跨视图对比节点和图编码在node classification 和 graph classification上都能获得更好的结果。 (3) 与分层图池化方法(例如DiffPool相比)一个简单的Readout在这node classification 和 graph classification上实现了更好的性能,以及 (4) 应用正则化(early stopping除外) 或归一化层对性能有负面影响。 Method MVGRL通过最大化一个view的node embedding和另一个view的graph embedding之间的 互信息来学习节点和图表示。如上图所示,MVGRL由以下几个部分构成 增强机制:将样本图转化为同一个图的相关view, 这个view只是structural view, 不会改变原图中的node feature,然后对两个增强图中的相同节点(identical node)进行子采样,类似于CV中的域剪裁。 两个专用的GNNs, 每个view一个GNN,再接一个共享的MLP作为projection head,来为两个view学习representation。 图池化层, 在MLP后学习两个图的graph-level representation。 判别器 来对比一个图的embedding和另一个图的节点embedding,并对他们的一致性(agreement)评分。 Augmentations 考虑两种类型的图增强:(1) 对初始节点特征进行操作的特征空间增强,例如,mask或添加高斯噪声,以及 (2) 通过添加或删除连通性、子采样或使用最短路径或diffusion matrix生成全局视图来对做图结构增强。 前一种增强可能是有问题的,因为许多数据集不带有初始节点特征。 此外,观察到在任一空间上屏蔽或添加噪声都会降低性能。 因此,本文选择生成全局视图,然后进行子采样。 实验表明,在大多数情况下,最好的结果是通过将邻接矩阵转化为扩散矩阵,并将这两个矩阵视为同一图的结构的两个一致view。因为邻接矩阵和扩散矩阵分别提供了图结构的局部和全局视图,从这两种view中学习到的表示之间最大一致性,从而鼓励模型同时编码的局部和全局信息。 Diffusion matrix从全局角度提供了任意节点对之间的相关性,其中$\mathbf{T} \in \mathbb{R}^{n \times n}$是通用转移矩阵,$\Theta$是权重系数,决定了全局和局部信息的比例,即对于每个节点,不同层次信息的比重, $\Theta_{k}$越大,表示全局信息权重越大。 令$\sum_{k=0}^{\infty} \theta_{k}=1, \theta_{k} \in[0,1]$,$\lambda_{i} \in[0,1]$,其中$\lambda$是$\mathbf{T}$的特征向量, 这样来保证$\mathbf{S}$可以收敛到一个固定矩阵。扩散用快速近似值和稀疏化方法计算: $$ \mathbf{S}=\sum_{k=0}^{\infty} \Theta_{k} \mathbf{T}^{k} \in \mathbb{R}^{n \times n} $$ 给定一个邻接矩阵$\mathbf{A} \in \mathbb{R}^{n \times n}$和一个对角度矩阵$\mathbf{D} \in \mathbb{R}^{n \times n}$, Personalized PageRank (PPR)和Heat Kernel分别为两种不同的Diffusion matrix实例。对于PPR和HK,转移概率矩阵定义为$\mathbf{T}=\mathbf{A} \mathbf{D}^{-1}$。PPR将第$k$层的权重系数设置为$\theta_{k}=\alpha(1-\alpha)^{k}$, 而HK将第$k$层的权重系数设置为$\theta_{k}=e^{-t} t^{k} / k !$。 ...