ICLR2021 《Combining Label Propagation and Simple Models Out-performs Graph Neural Networks》 Reading Notes
paper Introduction 本文研究了结合更简单的模型来处理transductive node classification任务。 主要包括1个预测模块和两个后处理(post-processing)模块: Base predictor:忽略图结构,用简单模型(如MLP或线性模型)使用节点特征预测label Error correction:校正步骤,将训练数据中的不确定性(误差)传播到图上,来校正Base predictor的预测 Smoothing:在图上平滑预测 其中只有第一步base predictor的参数是可学习的,即涉及图结构的操作(Correction和Smoothing)无需参数学习,这种简单的模型使得参数数量减少了几个数量级,训练时间也减少了几个数量级,并且可以轻松扩展到大规模图。 相比于过去的GNN+LP的方法,C&S更加高效:1)C&S首先只使用节点特征进行低成本的base prediction;2)然后再使用标签传播对基础预测进行校正 ;3)最后对最终预测进行平滑。 第一步是预测操作,后两部是后处理操作,也就是第一步为一个独立的端到端模型,后两部基于一个inductive bias来调整节点的表示。即homophily假设:相连节点的误差和label是相似的(正相关)。训练节点的误差和它相连节点的误差应相似,那么就用训练节点的误差来校正邻居节点。 因此,将标签更加直接的整合到GNN的学习算法中是本文性能的关键,并且发现LP与node features是相互互补的信号。实验表明,在OGB-Products上,参数量比GNN少了2个数量级,训练时间也减少2个数量级。 Correct and Smooth (C&S) Model 给定无向图$G=(V,E)$,$A$为邻接矩阵,$S=D^{-1 / 2} A D^{-1 / 2}$为归一化邻接矩阵。节点集划分为labeled nodes $V_L$和unlabeled nodes $V_U$,其中$V = V_L \cup V_U$。进一步,labeled nodes可以分为训练节点集$V_{L_t}$和验证节点集$V_{L_v}$。训练集和验证集的label分别为$Y_{L_t:}$和$Y_{L_v:}$, 每行为label的one-hot向量。 Simple Base Predictor $$ \min \sum_{i \in L_{t}} \ell\left(f\left(x_{i}\right), y_{i}\right) $$ $f(\cdot)$为简单的训练模型+softmax,如浅层MLP, $\ell$为cross-entropy loss。 基于训练节点$V_{L_t}$特征的模型$f$可以得到输出预测$Z \in \mathbb{R}^{n\times c}$, 其中$Z$的每行是softmax得到的分类概率分布。Simple Base Predictor是一个独立训练的端到端模型。 Correcting Base Prediction with Error Correlation (使用邻居误差关联来纠正基础预测) 通过融合标签信息来提高base prediction $Z$的准确率。 本文期望base prediction中的误差沿着图中的边正相关,即节点$i$出的预测误差在它的邻居处也会出现相似的误差。为了实现这个目的,首先定义一个误差矩阵$E \in \mathbb{R}^{n \times c}$用来保存每个节点的预测误差,其中误差为训练数据集上的残差(只有训练节点由误差)其他没有训练过程中不知道label的节点误差设为0: $$ E_{L_{t},:}=Y_{L_{t},:}-Z_{L_{t},:} \quad 为训练集节点 V_{L_t}的误差 $$ ...