英語版Wikipediaを辞書付きにするブックマークレット

研究の一環として,英語版Wikipediaを辞書付きにするシステムを作成しています.通常のWikipediaを見ているときに,wikipediaの前にneを付けると,このシステムに飛べるのですが,その作業をするブックマークレットを作成しました.
以下の文字列を,通常のURLと同じようにしてブックマーク(お気に入りに登録)し,英語版Wikipediaを見ているときに,このブックマークをクリックすると,辞書付きのWikipediaに飛べます.

javascript:(function(){ document.location.href=document.location.href.replace('.w', '.new')})();

このシステムはNewikipediaと言って,個人の英語語彙力をクリックから推定して自動的に訳をつけるシステムです.ログインを不要にするため,1ブラウザ=1ユーザだと想定して機能しています.(そのため,Cookieを使用しています.ご了承下さい.)また,最初にアクセスしたときは,全ユーザの平均的な英語力を想定して訳が付きます.
この機能は,私個人が作成しているもので,Wikipediaの公式な機能では全くありません.ご了承下さい.

7/25〜 楽天技術研究所 New Yorkへインターンに行って参ります

前回のブログ書き込みから、1年近くたってしまいました(汗 だんだん、補完していこうと思います。

さて、7/25から、楽天技術研究所 New York様へ、3ヶ月のインターンに行ってまいります。日本に帰ってくるのは、10月27日になる予定です。貴重な夏期インターンの機会を与えて下さり、ビザ取得までサポートしてくださった関係者の皆様方には、心から感謝しております。

後、数日で日本から居なくなってしまうので、もし、僕が持っていくのを忘れそうなものがあったら、どうぞお気軽に、コメント欄にでも書き込んで頂けると幸いです(笑)

近況:

  • iPadとiPhone4を買いました。
  • もう半年前の話になりますが、IUI 2010にFull paperで論文が通り、2月に香港で発表してまいりました。本当に本当に、嬉しかったです。とても励みになりました。

Wolfram Alphaを早速試してみた

Mathematicaを考案した、あのWolframが作った検索エンジン(?)、Wolfram Alphaを早速試してみた。CNETでは、「検索エンジン」として紹介されているが、Wolfram Alphaは、GoogleやYahooのような、Webページを探し出すための検索エンジンにとどまらない。Wolfram Alphaのすばらしい点は、情報を比較・分析できることだ。もっと手っ取り早く言えば、表やグラフを勝手に作ってくれて、見せてくれる。

とりあえず、次の結果を見れば分かる。自分の専門は自然言語処理なので、"Japanese vs. English"と入れてみた。その結果がこれだ。

これだけのキーワードで、勝手に基本的な表が出てくる。しかも、この表の根拠について、(1970-1993 estimates)と左下に小さく表示してくれていることが、見落としがちだが重要な点だ。この手の表は、数字が信頼できなかったり、前提となる情報がないと、意味が薄くなるからだ。

この表だけで、結構「意外性のある情報」が発見できる。たとえば、世の中は英語で動いていると思っているが、ネイティブスピーカーの数で比較すると、英語は日本語の3倍程度だ。にもかかわらず英語の方が圧倒的に優位な現実があるのは、日本語が日本に局在しているからだろう、というような推測が立てられる。後、Writing systemもおもしろい。日本語は"Chinese script"と書いてある。なるほど、あちらの感覚では、"Chinese script"なんですね。間違っちゃぁいない。


これもおもしろい。文字頻度(character frequency)や語彙の類似性(lexical similarity)も表示してくれる。(Lexical similarityは、共通語彙の割合らしい)


これも結構おもしろい。英語のネイティブスピーカーが多い国は、と聞かれて、タンザニアウガンダはすぐには出てこない。

Wolfram Alphaの賢いところは、"Japanese vs. English"(日本語と英語の比較)に関する、何の情報を表示するのかを明示しないときに、大体思いつきそうな比較表をババっと出してくれるところだ。ここは、たぶん、与えられた質問に関してどれぐらい的確な答えが返せるかを評価するQA(Question Answering, 質問応答システム)と少し違うところで、現実には「質問する側も何を尋ねるか明確でないことが多い」ということがよく想定されているのでは、と考えていいと思う。(自分はQAが専門ではないので、もしかしたら間違ったことを言っているかもしれない)

で、このWolfram Alpha、結局どういうときに使うべきかといえば・・・
間違いなくプレゼンテーションや企画書を作る時の、絶好のツールになるだろう
というのが、自分の予想。何しろ、表示される表も綺麗なので、それをそのままコピペすれば、プレゼンテーション・企画書に十分使いまわせる。もしかしたら、今学期末の大学の授業のレポートには、Wolfram Alphaからのコピペがぞろぞろ並ぶかもしれないので、要注意だ(汗

キーボードとマウスにこだわらない人が最低限こだわること

id:mamorukさんが、「キーボードとマウスへのこだわり」ということで記事を書かれたので、自分も、書いてみることにしました。実は、自分は、長年パソコンを使っているにしては、「キーボードとマウスにこだわらない人」だと思います。こだわらない理由は、id:mamorukさんが代弁してくださっています:

弘法筆を選ばずという格言もあるように、誰かの席に行ってキーボード叩くこともあるだろうし、急に職場が変わってキーボード・マウス選べなくなったり(もしくはインターンシップで行った先が Microsoft/Apple とかで OS の選択の余地がなかったり)、どんな環境でもそこそこ使えるように柔軟性を持っておくことは必要だと思う。

まさしくこれです。家で複数台ノートPCを使っていて、あるPCから別のPCに移ったときに、操作が違うと面倒くさいですしミスの元になります。そこで、どのマシンを使ったときにも同様の使い勝手を望んだ結果、「特にこだわらない」ということになりました。ただ、そういう自分でも、最低限こだわっているところはあります:

  1. フルサイズキーボードのキーピッチ(19mm)より数mm小さめのキーピッチ@キーボード
  2. コードが巻けるかどうか(レシーバーが極小かどうか)@マウス

キーボードに関しては、フルサイズキーボード(いわゆるデスクトップについてくるキーボード)のキーピッチ19mmは、少し大きいな、と感じます。今使っているEeePC S101のキーピッチは17.5mmらしいのですが、これがかなりしっくり来ています。ずっとB5サイズのノートPCを使っていたためかもしれません。キーピッチは手のサイズにもよると思いますが、自分の手のサイズは、割と大きいほうです。今、右手の親指から小指の幅を思いっきり広げてみたら、A4の長い方の辺に1cm届かないぐらいだったので、297mm-10mm=287mmぐらいありました。

慣れの問題かもしれませんが、「キーピッチが広くなると、移動距離が長くなる分、キーとキーの間を指が移動するのに時間がかかって打つのが遅くなるのでは」とも考えています。ノートPCのキーボードの方がキーピッチ的にしっくりくる(ようになってしまった?)ので、基本、高いキーボードは買いません。あ、もちろん、フルサイズのキーボードが使えないわけではないのでご安心を。

マウスに関しては、実は、最近までタッチパッドでマウスすら使っていませんでした。ただ、タッチパッドだとホイールのようにスクロールするのが難しいので、数ヶ月前に、ためしに小型マウスを買ってみたら、手放せなくなりました。で、そのときに気をつけたのは、「コードが巻けるかどうか」です。「ワイヤレスマウスにしろよ」と思われるかもしれませんが、「レシーバをUSBにつけたりはずしたりすることを考えると、マウスの上にレシーバも探さないといけなくなって面倒だ」という理由で、コードつきを使っています。ただ、コードをそのままにしておくと、カバンの中に入れたときに絡まるので、巻き取り式かどうかが重要なポイントでした。後、ノートPCと一緒に持ち歩くことを考えるとカバンの中に入れて膨らまないぐらいのサイズであるものを選びました。

ただ、今考えてみると、極小サイズのレシーバをつけっぱなしにしておくなら、ワイヤレスの方がよかったかもしれません。というより、その方がいいですね。

SSDの意外な盲点:Cygwinの.bash_history

前回の記事にも書いたが、SSDのマシンEeePC S101を導入して一週間。今のところ、すこぶる快適です。で、今日はちょっとした盲点を見つけたよ、というお話。

Cygwinは、読み出しが主だろうと思ったので普通にCドライブに入れているのですが、意外な盲点が。それは、
~/.bash_history
Cygwinのコマンドの履歴ファイル。当然、Cygwin立ち上げて、コマンドを入力するたびに、ファイルに追加書き込み命令が走ることになる。ログのような、小サイズの書き込み命令って、SSDが一番苦手とするもののはず。これは、ちょっと気持ちが悪い。そこで、ホームディレクトリをSDカード上に移動しました。

cd /home
cp -r ユーザ名 /cygdrive/d
mv ユーザ名 ユーザ名.old
ln -s /cygdrive/d/ユーザ名 ユーザ名

これで、ちょこまか.bash_profileに書かれても大丈夫。