多重トピックを用いたブログ空間の情報伝搬解析

かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。
確率分布間の近さを測るのには普通KLダイバージェンスを使うが、よく知られているようにKLダイバージェンスは非対称なので、これだと、コサイン類似度のような普通の類似度の意味では使えない。そこで、JSダイバージェンスというのを使う。KLダイバージェンスD(p||q)と置くと、JSダイバージェンスは、\frac{1}{2}(D(p||\frac{p+q}{2})+D(q||\frac{p+q}{2}))で表わされる。JSダイバージェンスという言葉を初めて知った。勉強になりました。