Webページ中の単語の使用頻度とPageRank値との関係解析

2011/7/20 追記

以下のコメントは完全な勘違いであることが分かりました.要するにGoogleツールバーPageRankの値が,ちゃんとPageRankアルゴリズムによるものかどうかが疑問だったのですが,PageRankアルゴリズムによるものである,ということがWikipediaこのページに書かれておりました(2011/07/20 11:51閲覧).

最後の、Webページ中の単語の使用頻度とPageRank値との関係解析という発表は、タイトルから、とても期待していたのですが、どうもPageRank値の定義が自分とは違っていたようです。PageRank値といったら、自分の中では、PageRankアルゴリズムを使用して出てきた値、つまり、「Webページ中の隣接行列(を簡単な割り算で推移確率行列にしたもの)の最大固有値」という明確な定義ができるので、自分は「PageRankアルゴリズムという純粋にリンクだけを見たページの特徴量と、ページ中の単語の使用頻度というページの内容だけを見たページの特徴量の関係を調べたのか。二つの特徴量の差異を明確にして、相補的に使える場合を論じられたら面白そうだなぁ」と思っていたのですが・・・

件の論文のPageRank値というのは、「Googleから取ってきたPageRankの値のこと」らしい。しかも、どうやら、今のGoogleが出しているPageRankという名前の値を、どうも、Googleが10年前に発表したPageRankアルゴリズムのように、純粋にリンク構造だけを見て算出した値であるかのように扱っているように見える。内容は、GoogleがToolbarなどで表示しているPageRankと言う名前の値を回帰分析を使って単語頻度から当てる、というもの。

うーん。同じ名前であるから確かに紛らわしいのですが、こことかを見ると、Googleは公表しているPageRankという名前の値をどのようにして算出しているか明確にしていないわけですし、Googleも商業的な目的でPageRankという値を出しているわけで・・・この値が、PageRankアルゴリズムのように内容を全く考慮しない手法で計算されているというのは、考えにくいのではないでしょうか。実際、その後の質疑応答で、「当社で実験したところ、全くリンクをはらなかったのにPageRankの値がついた」みたいな話もありました。

結局、「Googleが公表しているPageRankの値が、どのように計算されているか不明である」というところが、決定的に、この研究のおもしろさを削いでしまっていると言わざるを得ないと思います。PageRankアルゴリズムの計算をするプログラムは実装が豊富に公開されているので、自分であれば、クロールしたページに対して実際にPageRankアルゴリズムを走らせて計算すると思います。