Personalized PageRank 的基本性质

人们经常会利用 MHonArc、latex2html 或者 PowerPoint 这样的工具将文档变成 HTML,针对这样的人工制作的HTML链接群求 PageRank 的话,大部分页面的得分几乎都是一样的(~1/N)。

如果考虑邻接行列,则大部分的成分是1,或者对角成分附近全部是1。

因为这样的推移概率行列的固有矢量成为(1,1,…,1)。

或是象 sitemap.html 一样变成树状的情况下,分数会集中在sitemap.html中。

就算占据全体的9成也不算新奇。

从现在起能说的是,为了计算有意义的 PageRank,要尽可能地排除机械生成的链接关系。

如果把链接关系看做是推荐关系的话更加容易认同了吧。