Webページ中の単語の使用頻度とPageRank値との関係解析

2011/7/20 追記

以下のコメントは完全な勘違いであることが分かりました.要するにGoogleツールバーPageRankの値が,ちゃんとPageRankアルゴリズムによるものかどうかが疑問だったのですが,PageRankアルゴリズムによるものである,ということがWikipediaこのページに書かれておりました(2011/07/20 11:51閲覧).

最後の、Webページ中の単語の使用頻度とPageRank値との関係解析という発表は、タイトルから、とても期待していたのですが、どうもPageRank値の定義が自分とは違っていたようです。PageRank値といったら、自分の中では、PageRankアルゴリズムを使用して出てきた値、つまり、「Webページ中の隣接行列(を簡単な割り算で推移確率行列にしたもの)の最大固有値」という明確な定義ができるので、自分は「PageRankアルゴリズムという純粋にリンクだけを見たページの特徴量と、ページ中の単語の使用頻度というページの内容だけを見たページの特徴量の関係を調べたのか。二つの特徴量の差異を明確にして、相補的に使える場合を論じられたら面白そうだなぁ」と思っていたのですが・・・

件の論文のPageRank値というのは、「Googleから取ってきたPageRankの値のこと」らしい。しかも、どうやら、今のGoogleが出しているPageRankという名前の値を、どうも、Googleが10年前に発表したPageRankアルゴリズムのように、純粋にリンク構造だけを見て算出した値であるかのように扱っているように見える。内容は、GoogleがToolbarなどで表示しているPageRankと言う名前の値を回帰分析を使って単語頻度から当てる、というもの。

うーん。同じ名前であるから確かに紛らわしいのですが、こことかを見ると、Googleは公表しているPageRankという名前の値をどのようにして算出しているか明確にしていないわけですし、Googleも商業的な目的でPageRankという値を出しているわけで・・・この値が、PageRankアルゴリズムのように内容を全く考慮しない手法で計算されているというのは、考えにくいのではないでしょうか。実際、その後の質疑応答で、「当社で実験したところ、全くリンクをはらなかったのにPageRankの値がついた」みたいな話もありました。

結局、「Googleが公表しているPageRankの値が、どのように計算されているか不明である」というところが、決定的に、この研究のおもしろさを削いでしまっていると言わざるを得ないと思います。PageRankアルゴリズムの計算をするプログラムは実装が豊富に公開されているので、自分であれば、クロールしたページに対して実際にPageRankアルゴリズムを走らせて計算すると思います。

Social IME

トップバッターは、[id:nokuno:20090325]さんのSocial IMESocial IMEのコンセプト自体は知っていたのと、以前は入力研究をやっていたので、期待していました。Social IMEは基本的にはAnthyのエンジンを使っているのですが、予測変換部分を実装して組み込みましたよ、という話。予測変換となると、変換精度だけではなく、「何文字先まで予測するべきか」という問題が出てくるのですが、これを、予測入力時間が最小となるように(入力時間の削減量が最大となるように)決定する、というのが、とても「入力」という実用に沿っているように思います。応用分野で、目的に忠実にモデル化すると、これまでとは違った評価関数が出てきて、そこにオリジナリティーが出てくる、というのは、一つの理想的ストーリー。Anthyと予測変換の使い分けは、スペースを押すかTABを押すかで決定しているようです。

ユーザー実験もちゃんとやっていて偉い、と思います。スライドも綺麗だったので、ちょっと、自分のスライド作りの参考にさせていただきます。id:nokunoさんとは面識はなかったのですが、休憩時間中にちょっとお話ができてよかったです。

NL研の受付〜1日目〜

もう、色々なところで語られてしまいましたが、情報処理学会第190回自然言語処理研究会、通称NL研に参加したので、記事を書きます。僕は、紺色のジャケットを来て受付やってました。NL研の受付をやるのは、熱海に続き、二回目になります。日当8000円。熱海では会場と受付が離れていたので発表がほとんど見られなかったのですが、今回は、会場と受付が同じ部屋だったので見ることができました。会場は、東大工学部6号館3階でした。
NL研は、聴講だけなら無料で可能です。有料・無料は予稿集の有無で決まります。予稿集は、大抵、1件6ページです。学生であれば、情報処理学会の会員でなくても、現地で500円払えば予稿集が購入できます。学生でない方は、情報処理学会の会員の場合1500円、そうでなければ2500円かかります。学生500円というのは、かなり安いと思います。今回のNL研でも、途中で読みたい論文が出てきたので、500円自分で払って予稿集買いました。

で、その予稿集ですが、今までは印刷物を手で配布していました。しかし、今回からNL研は、ペーパーレス化ということで、予稿集をPDFでダウンロードする形になります。ペーパーレス化の利点は、もちろん多々ありますが、一つ問題なのは、無線LANが不調でダウンロードできないため、事前にPDFをダウンロードしていないと論文が参照できないことがあることです。先生も無線LANが上手く動くように努力されていましたが、なぜか今回は不調でした。

もちろん、大学には学生用の無線LANネットワークが用意されているのですが、セキュリティ上、会場無線LANユーザを学生用の無線LANネットワークにつなげるわけにはいかないので、即席で無線LANルータを持ち込んで何とかするしかないのです。確実に論文を見るには、事前にダウンロードするか、現地で無線LANが繋がらない時のために、e-mobileを持っていくことだと思います。

では、NL研本体の研究発表について。