世界の言語入門

世界の言語入門 (講談社現代新書)

世界の言語入門 (講談社現代新書)

世界の言語、90語についての話が載っているということで、おもしろそうなので買ってみましたが、感想を一言でいえば、「イマイチ」でした。なぜなら、「言語学コラム」以外の部分は、筆者の体験談に過ぎず、何もおもしろいことを語ってくれません。やはり、一人の人間が90もの言語について語るのは無理があるのでしょう。知識として各言語について知りたい場合は、英語版のWikipediaを読んだ方が面白いです。

もちろん、筆者も言語学者なので、あらかじめ「これはエッセイ集です」と断っていて、それを知らずに買った僕が悪いのですが。小説のように、エンターテイメントとして読むには面白い本だとは思います。

系列ラベリングのための Forward-Backward アルゴリズムの一般化

これも、頑張れば、breakthroughになりそうな研究。前向き後ろ向きアルゴリズムというと、隠れマルコフモデル(HMM)のBaum-Welchアルゴリズムが有名だけど、実は、HMMに限らず、前向き後ろ向きアルゴリズムで行っている計算は、系列ラベリングを行う時に本質的に必要になってくる。
結局、入力系列\mathbf{x}と出力系列(ラベルの系列)\mathbf{y}があるとき、パラメータ\mathbf{w}と、パラメータの良さ評価する関数f(\mathbf{y},\mathbf{x};\mathbf{w})を作ってやって、これを最大化するようにしてやるわけだ。今、ある入出力ペア\mathbf{x}_0,\mathbf{y}_0とパラメータ\mathbf{w}_0があるときに、さぁ、このパラメータ\mathbf{w}_0がどれだけ良いパラメータなのですか?ということを測りたい。測るのに使えるデータは、出力系列(正解のラベル系列)\mathbf{y_0}だけ。

まっとうな方法は、その入力\mathbf{x}_0とパラメータ\mathbf{w}_0を与えた時の全ての出力系列のパターンと比較して、\mathbf{y}_0がどれだけ寄与するか(確率で考えれば、出やすいか)を計算することだろう。つまり、\frac{f(\mathbf{y}_0,\mathbf{x}_0;\mathbf{w}_0)}{\sum_{\mathbf{y} \in \mathbf{Y}} f(\mathbf{y},\mathbf{x}_0;\mathbf{w}_0)}を計算してやる。

条件付確率場(Conditional Random Field, CRF)は、この関数fが、f(\mathbf{y}_0,\mathbf{x}_0;\mathbf{w}_0)=exp(\mathbf{\phi}(\mathbf{y}_0,\mathbf{x}_0)^T \mathbf{w}_0)の形をとる時の話なわけだ。fの形が複雑だと、\sum_{\mathbf{y} \in \mathbf{Y}}が出力系列長|\mathbf{y}|に対して指数関数的になるので、長い系列が事実上計算できなくなる。この論文は、このfとしてどんな関数が取れるかを考えて、その関数の幅を広げましたよ、という話。さらに、fをテイラー展開で近似するのでよければ、fとして大抵の関数は持ってきてよさそうだ、ということも書いてある。

恥ずかしながら、HMMのBaum-Welchと、CRFのZ項の計算が本質的に同じものだって、この記事書いてて初めて理解しました。もっと勉強しなければ・・・

多重トピックを用いたブログ空間の情報伝搬解析

かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。
確率分布間の近さを測るのには普通KLダイバージェンスを使うが、よく知られているようにKLダイバージェンスは非対称なので、これだと、コサイン類似度のような普通の類似度の意味では使えない。そこで、JSダイバージェンスというのを使う。KLダイバージェンスD(p||q)と置くと、JSダイバージェンスは、\frac{1}{2}(D(p||\frac{p+q}{2})+D(q||\frac{p+q}{2}))で表わされる。JSダイバージェンスという言葉を初めて知った。勉強になりました。

言い換え箇所と言い換え候補の提示による解説文リライト支援の評価実験

これは、「へぇ、言い換えに、こんな応用があるのか」と思ったもの。博物館などの解説文に含まれる表現を、子供や非専門家に分かりやすく書きかえるためのタスクを言い換えの問題に落とし、実際に専門家に解説文を作ってもらった、というもの。「博物館などの解説文の作成支援」は、非常に重要ではあるが収益性が見込みにくく、研究としてやることが重要なタスクだと思う。まぁ、言い換え研究については、全然知らないのですが。

教師なし形態素解析

初日のハイライトは、やはり、色々なところで既にすごいすごいと言われている、daiti-mさんの、教師なし形態素解析。論文は、daiti-mさんのサイトのPublicationsに載っています。で、これはすごい。とにかくすごい。daiti-mさんの言う通り、ベイズをやっていない人がちょっとやそっとで出来るものではないです。簡単な解説は、[id:mamoruk:20090325]さんが書いてくださっています。他にも、この論文を理解しようという動きが、[id:nokuno:20090326:1238085058]などをはじめ色々なところで、既に始まっているようです。

T2 Meeting

NL研終了後に、T2 Meetingという東大と東工大合同の研究会が同じ会場で別に開かれました。今回が第2回目で,第一回目は,mamorukさんが[id:mamoruk:20090212]に詳細を書いてくださっています.

うちのMくんの発表。簡単に補足しておくと、サポートベクターマシン入門の4章に汎化理論についての解説があり、それを彼と2人で読みました。この章は、件の本の中では、一番、読むのが大変な章だと思います。彼は、これに加えて、汎化性能の観点から導き出された最適化問題とその解法の文献を読み、しっかりした発表を行ってくれました。

サポートベクターマシン入門

サポートベクターマシン入門

次に、東工大のIさんの発表。シード語を与えられた上で、語をpos/negに分類するタスクを、語をノードと見たグラフを作り、ノード間にエッジを張るかどうかを判定する整数計画問題(ILP)に落として解く、という話でした。ノード間(単語間)の類似度は、共起ベクトルのコサイン類似度を使用しているらしいのですが、普通に特徴ベクトルを作ってクラスタリングするのと、どのように違うのかが気になりました。