PageRank是1997年谷歌第一代搜索引擎的底层算法。大幅提高了搜索结果的相关率和质量,成为互联网第一个爆款应用,造就了传奇的谷歌公司。
PageRank是搜索引擎、信息检索、图机器学习、知识图谱、线性代数必读经典算法。
PageRank把互联网表示为由网页节点和引用链接构成的有向图,通过链接结构,计算网页节点重要度。来自重要网页节点的引用链接,权重更高。
通过线性方程组、矩阵乘法、特征值和特征向量、随机游走、马尔科夫链,五种角度,理解并求解PageRank值。讲解PageRank的收敛性分析及针对特殊节点的改进方法,最后扩展PageRank在推荐系统中计算节点相似度排序的升级变种。
我们可以通过上个task3学到的networkx
进行pagerank
的节点重要程度计算:
import networkx as nx
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
G = nx.star_graph(7)
# nx.draw(G, with_labels = True)
pagerank = nx.pagerank(G, alpha=0.6)
'''
{0: 0.4062486673302485,1: 0.08482161895282164,2: 0.08482161895282164,3: 0.08482161895282164,4: 0.08482161895282164,5: 0.08482161895282164,6: 0.08482161895282164,7: 0.08482161895282164}
'''
通过随机游走定义节点重要性、通过matrix factorization获得节点嵌入。
为节点j
定义指标rank级别:rjr_jrj,其中did_idi为节点i
的出度;因为网页i
的重要性是rir_iri,有did_idi个出边,所以可以定义每个节点(即每个网页)的权重为ridi\dfrac{r_i}{d_i}diri。rj=∑i→jridir_j=\sum_{i \rightarrow j} \frac{r_i}{d_i} rj=i→j∑diri
这里节点的权重其实就是对所有加权求和过的入边,累加计算。栗子:1839年的web,其中的 flow等式为ry=ry/2+ra/2ra=ry/2+rmrm=ra/2\begin{aligned} & r_y=r_y / 2+r_a / 2 \\ & r_a=r_y / 2+r_m \\ & r_m=r_a / 2 \end{aligned} ry=ry/2+ra/2ra=ry/2+rmrm=ra/2
PageRank的矩阵形式。
flow等式和矩阵形式:
和随机游走联系。
特征向量形式。
nx.degree_centrality(G)
然后可视化。
结论:可通过Power iteration高效求解rrr。
方法:power iteration method 幂迭代法求解pagerank
pagerank结果栗子:
# !/usr/bin/python
# -*- coding: utf-8 -*-
import networkx as nx # 图数据挖掘
import numpy as np # 数据分析
import random # 随机数
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
# OpenKG-四大名著人物关系知识图谱和OWL本体:http://www.openkg.cn/dataset/ch4masterpieces# (一)读取数据和可视化任务关系
# 导入 csv 文件定义的有向图
df = pd.read_csv('data/三国演义/triples.csv')
edges = [edge for edge in zip(df['head'], df['tail'])]
G = nx.DiGraph()
G.add_edges_from(edges) # 添加有向边# 可视化
plt.figure(figsize=(15,14))
pos = nx.spring_layout(G, iterations=3, seed=5)
# nx.draw(G, pos, with_labels=True)
nx.draw_networkx(G, pos, with_labels = True)
plt.show()
可以看到人物关系图如下,边是有向边,如head
为关羽,tail
为刘备是,relation
是younger_sworn_brother
,label
是义弟。
# (二)计算每个节点的pagerank重要度
pagerank = nx.pagerank(G, # NetworkX graph 有向图,如果是无向图则自动转为双向有向图alpha=0.85, # Damping Factorpersonalization=None, # 是否开启Personalized PageRank,随机传送至指定节点集合的概率更高或更低max_iter=100, # 最大迭代次数tol=1e-06, # 判定收敛的误差nstart=None, # 每个节点初始PageRank值dangling=None, # Dead End死胡同节点)# 按pagerank重要度进行排序
sorted(pagerank.items(),key=lambda x : x[1], reverse=True)# (三)设置节点和连接的参数
# 用节点尺寸可视化PageRank值
# 节点尺寸
node_sizes = (np.array(list(pagerank.values())) * 8000).astype(int)
# 节点颜色
M = G.number_of_edges()
edge_colors = range(2, M + 2)
# 绘图
plt.figure(figsize=(15,14))# 绘制节点
nodes = nx.draw_networkx_nodes(G, pos, node_size=node_sizes, node_color=node_sizes)# 绘制连接
edges = nx.draw_networkx_edges(G,pos,node_size=node_sizes, # 节点尺寸arrowstyle="->", # 箭头样式arrowsize=20, # 箭头尺寸edge_color=edge_colors, # 连接颜色edge_cmap=plt.cm.plasma,# 连接配色方案,可选:plt.cm.Blueswidth=4 # 连接线宽
)# 设置每个连接的透明度
edge_alphas = [(5 + i) / (M + 4) for i in range(M)]
for i in range(M):edges[i].set_alpha(edge_alphas[i])# (四)图例
# pc = mpl.collections.PatchCollection(edges, cmap=cmap)
# pc.set_array(edge_colors)
# plt.colorbar(pc)ax = plt.gca()
ax.set_axis_off()
plt.show()
比如左下角的又大又黄又亮的节点就是诸葛亮,灰常重要。
任务 | 任务内容 | 截止时间 | 注意事项 |
---|---|---|---|
2月11日开始 | |||
task1 | 图机器学习导论 | 2月14日周二 | 完成 |
task2 | 图的表示和特征工程 | 2月15、16日周四 | 完成 |
task3 | NetworkX工具包实践 | 2月17、18日周六 | 完成 |
task4 | 图嵌入表示 | 2月19、20日周一 | 完成 |
task5 | deepwalk、Node2vec论文精读 | 2月21、22、23、24日周五 | 完成 |
task6 | PageRank | 2月25、26日周日 | 完成 |
task7 | 标签传播与节点分类 | 2月27、28日周二 | |
task8 | 图神经网络基础 | 3月1、2日周四 | |
task9 | 图神经网络的表示能力 | 3月3日周五 | |
task10 | 图卷积神经网络GCN | 3月4日周六 | |
task11 | 图神经网络GraphSAGE | 3月5日周七 | |
task12 | 图神经网络GAT | 3月6日周一 |
[1] Pagerank-算法讲解:https://www.bilibili.com/video/BV1uP411K7yN
[2] PageRank代码实战-西游记人物重要度:https://www.bilibili.com/video/BV1Wg411H7Ep
[3] cs224w(图机器学习)2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)
[4] CS224W官网:https://web.stanford.edu/class/cs224w/index.html
[5] CS224W-11 成就了谷歌的PageRank
[6] 锋哥笔记-pagerank
[7] 百科-L1范数正则化
[8] https://github.com/TommyZihao/zihao_course/tree/main/CS224W
[9] 【经典论文阅读】PageRank原理与实践
[10] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the web[R]. Stanford InfoLab, 1999.