图算法之节点分类Node Classification-365bet欧洲版官网-365bet官方网址-365bet欧洲版官网-bat365官网登录下载

前言

在图谱当中，有一项很重要的任务，节点分类。该任务通常是给定图中某些节点对应的类别，从而预测出生于没有标签的节点属于哪一个类别，该任务也被称为半监督节点分类。

本文主要介绍三种图算法来解决节点分类问题。

图中的相互关系

在图谱中，存在着两种重要的相互关系

homophily亲和性(我自己的翻译成，不一定准确)，具体意思就是指人以群分物以类聚，例如在社交网络中，喜欢蔡徐坤的人通常都会有同样的喜好。influence影响性，某节点的行为可能会影响到和他有关系的节点行为，例如有一天你吃起了螺蛳粉，结果你身边的人都跟着你吃了起来。

那么，如何利用这些关系来预测节点的标签呢？

通常，相似的节点都会紧密相连或者直接相连，而相连的节点大概率会有相同的标签。例如非法网站，通常都会有其它非法网站的链接。因此，我们预测节点类别时，通常会注意以下三个方面信息：

目标节点特征目标节点的邻居节点的labels目标节点的邻居节点的特征

有了以上的概念，我们就具体来看下有哪些节点分类的方法。注意，以下算法都遵循马尔科夫假设，即节点i的标签只是其邻居节点的标签有关系。

Probabilistic Relational Classifier概率关系分类器

基本思想：某节点的label是其邻居节点的对应的label概率的均值。

首先初始化已经存在label的节点标签概率，正例是1，负例是0，对于没有标签的全部设置为0.5，然后对所有没有标签的节点进行概率更新，直到收敛或者得到最大的迭代次数。（感觉是一个马尔科夫过程）

(

)

∑

(

)

∈

(

)

∑

(

)

∈

(

)

(

)

P(Y_i=c)=\frac{1}{\sum_{(i,j) \in E}W(i,j)}\sum_{(i,j)\in E}W(i,j)P(Y_j=c)

P(Yi=c)=∑(i,j)∈EW(i,j)1(i,j)∈E∑W(i,j)P(Yj=c)

其中

(

)

W(i,j)

W(i,j)表示的是节点

i与节点

j的边的权重。

接下来我们来看一个具体的例子：

初始化所有节点的概率值，没有标签的节点采用均匀分布设置为0.5

对节点3进行新的概率更新

对节点4进行概率更新

迭代一轮

迭代五轮

五轮迭代后，所有的概率值都趋于稳定，此时节点5、8、9对应的概率值大于0.5，设置为正例，节点3概率值小于0.5设置为负例，节点4概率值趋于0.5则正负都有可能。

缺点:

收敛难以得到保障（节点4）没有利用节点的特征信息

Iterative Classification迭代分类

Iterative classification实际上就是考虑关系的同时也考虑节点的的属性，主要包括三点

对于节点

i，创建一个向量

a_i

ai使用

a_i

ai来训练分类器(例如LR、SVM等)如果一个节点有多个邻居节点，做一个聚合操作，计算其数量，众数，比例，均值，是否存在邻居等。

训练过程和上一个算法类似，不停的迭代更新每一个节点的label，注意因为节点的改变，对应的节点的向量

a_i

ai也需要更新。知道label稳定，或者达到最大的迭代次数，训练结束。

缺点：该算法的收敛依旧没有得到保证。

Belief Propagation信念传播

Belief Propagation信念传播简称BP，是一种在图中通过计算条件概率的形式来表示消息传递的算法，可以理解为马尔科夫随机场，该算法采用了动态规划。

在开始之前，我们先了解几个概念：

message：message表示的是从节点

i到节点

j传递的信息，通常表示为

→

(

)

m_{i\to j}(X_j)

mi→j(Xj)，message和概率很类型，非负但是其和不是1，如果

→

(

)

m_{i\to j}(X_j)

mi→j(Xj)越高，说明边缘概率

(

)

P(X_j)

P(Xj)的值越高，通常message的初始值会设置为1belief：边缘概率即被称为belief

BP算法实际上就是不停的迭代更新message直到收敛再计算belief。看个具体的例子，如下图，我们想知道

k到底传递给了

j什么信息。

→

(

)

m_{i \to j}(Y_j)

mi→j(Yj)即上文提到的message，可以理解为是在计算整个图的联合概率，所以有如下公式：

→

(

)

∑

∈

(

)

(

)

∏

∈

∖

→

(

)

m_{i \to j}(Y_j)=\alpha \sum_{Y_i \in \mathcal L} \psi(Y_i,Y_j) \phi_i(Y_i) \prod_{k \in N_i \setminus j}m_{k \to i(Y_i)}

mi→j(Yj)=αYi∈L∑ψ(Yi,Yj)ϕi(Yi)k∈Ni∖j∏mk→i(Yi)

解释一下这个公式，

∑

∈

\sum_{Y_i \in \mathcal L}

∑Yi∈L表示的是对所有状态求和，

(

)

\psi(Y_i,Y_j)

ψ(Yi,Yj)是状态转移概率，表示的是已知节点

j的邻居节点

i的状态

Y_i

Yi，

j节点状态为

Y_j

Yj的概率，可以理解为条件概率

(

)

\phi_i(Y_i)

ϕi(Yi)表示的是节点

i状态为

Y_i

Yi的概率，可以理解为先验概率

\mathcal L

L表示的是所有状态的集合

上图只是一个比较简单的图，如果图比较复杂，那么就随机在图中选择一个节点作为根节点，然后从叶节点开始传递消息，重复这个过程n次，直到模型收敛。注意，每次消息传递的过程message的值都会保存下来，这就是算法中的动态规划。

因为每个结点都会收到来⾃所有相邻结点的信息，因此就可以计算每个节点的边缘概率即belief

(

)

(

)

∏

∈

→

(

)

，

∀

∈

b_i(Y_i)=\alpha \phi_i(Y_i) \prod_{j \in N_i }m_{i \to j(Y_i)}，\forall Y_i \in \mathcal L

bi(Yi)=αϕi(Yi)j∈Ni∏mi→j(Yi)，∀Yi∈L

边缘概率最高的对应的类别就是当前节点的所属类别。

BP可以并行的进行计算，所以效率很高，但是该算法依旧没办法完全保证模型收敛，特别是有环的时候。

总结

本文介绍的节点分类方法都是基于传统的图算法，目前也有很多基于Node Vector、GNN的方法来做node classification，相关的博文我会尽快分享给大家，敬请期待。

References

cs224w 6. Message Passing and Node Classification

图算法之节点分类Node Classification

相关推荐

免费游戏修改器有哪些 2025十款免费游戏修改器汇总

战地三在steam平台能买到吗？叫什么名字？

Visual Studio（VS）专业版企业版和社区版的区别

合作伙伴