Python 40行でbash/zshのヒストリファイルをマージするスクリプト

自分はzshユーザなのですが、色々なマシンで作業していると、各マシンのヒストリファイル.zsh-historyをマージしたくなることってありますよね。「あれ、あのコマンド、前に使ったはずなのに、コマンドヒストリにない...」と思ったら、他のマシンで作業した…

word2vecリンク集

word2vecに関する資料へのリンク集です.全く網羅的でないですが,とりあえず. 中でやっている計算の資料 Word2vecの並列実行時の学習速度の改善 @chokkanorg 先生のNL研での発表資料.内部の計算をスライドで端的に説明してくれている. http://www.folger…

博士課程一問一答

博士課程 Advent Calendar 2014 のエントリーです。 Q0. 筆者プロフィール 東大情報系博士課程を13年9月学位取得し修了。 専門は自然言語処理。 Q1. 博士課程ってなんですか今から振り返ってみると、「新人がいきなり一人前の研究者として活動されると危なっ…

Cのrand()よりmt19937の方が速いことがあるという話

おはようございます。2年ぶりの記事ですね。 もう1月程前になってしまいましたが、id:sleepy_yoshi:20130720 で id:sleepy_yoshi さんが高速な非復元抽出をやっておられ、その中で、Cのrand関数を使っておられました。僕は、普段、std::mt19937を使っていた…

Windows 7でnumpy, scipyインストール

明日は,Tokyo.SciPyですね.Windows 7にnumpy, scipyをインストールしましょう. http://www.python.org/download/でPython 2.7.2 Windows Installerをダウンロードしてインストール.僕の環境は64bitで64bitと書いてあるインストーラもありますが,こちら…

snappy_unittestをやってみたよ

DSIRNLPの発表にあったsnappyは全く知らなかったので,大変参考になりました.かなり速いマシンで,snappy_unittestをやってみました.コンパイルでちょっとはまったのは,GTEST_CONFIG環境変数に,google testのgtest_configへのパスを設定してからconfigur…

行列(画像)分解アルゴリズムGoDec (Zhou+, ICML2011)の実装を公開しました

つい2週間ほど前,機械学習のトップカンファレンスICMLが開催されました.その中のGoDecという行列分解アルゴリズムを実装したので公開します.このアルゴリズムは,簡単にいえば「外れ値抜き特異値分解」で,昨日のICML読み会で発表しました.論文はこれで…

C++0xで10行で書けるマージンパーセプトロン

C++0xの練習として,マージンパーセプトロンを書きました.データ読み込みやコマンドライン処理を含めてもperceptron_binary.cppという90行にみたない1ファイルだけで済ませてあり,一応,コピペなどで気軽に使えることを意識しています. ソースコードと使…

TokyoNLP #6で発表しました〜言語アフリカ起源説〜

6/25にTokyoNLP #6で発表しました。id:nokuno さんがまとめてくださっています。 Gengo Africa View more presentations from Yo Ehara 発表の中身は、世界の音素の多様性が言語がアフリカから広がる時の連続創始者効果を表しているという、Scienceの論文 を…

魔法少女まどか☆マギカの結末はいかに予想されたか:その1

このシリーズでは、魔法少女まどか☆マギカについて、他の記事では、あまり提供できないコンテンツであると思われる「10話までの放送から11話・最終話を予想する問題」について述べたいと思う。簡単に経緯を説明する。魔法少女まどか☆マギカは、2011/3/11未明…

計算論的メンタルレキシコン

ブログタイトルを計算論的メンタルレキシコンに変えました。僕の専門は計算言語学(自然言語処理)なのですが、自然言語処理の方には「メンタルレキシコン」というのは馴染みの薄い言葉であると思います。メンタルレキシコンというのは、端的に言えば、「人…

英語の発音とARPAbet

今週末にTokyoNLP #6で発表させていただくことになりました。 で、その下準備をしていましたが、論文の内容や線形回帰よりも、音素や発音の話の比重のほうが多くなりそう…。 発音上は、母音はopennessとかbacknessの2パラメータ+円唇/非円唇ぐらいを気をつ…

NL研の資料の買い方

日本の自然言語処理に関わる方がその研究を(ほぼ査読なしで)発表する代表的な場として,情報処理学会 自然言語処理研究会,通称,NL研があります.その他に言語処理学会の年次大会がありますが, NL研は年5回ある.東京で行われる場合と地方で行われる場合…

来年の目標

明日から来年ですが、来年の春には、とうとう生まれてから10000日目に達します。10000日目までに準備を整え、10000日目を転機に自分を良い方向に修正するのが来年の目標です。 とりあえず、ブログのタイトルを「10000日目から本気出す」に変えて、ブログのデ…

英語版Wikipediaを辞書付きにするブックマークレット

研究の一環として,英語版Wikipediaを辞書付きにするシステムを作成しています.通常のWikipediaを見ているときに,wikipediaの前にneを付けると,このシステムに飛べるのですが,その作業をするブックマークレットを作成しました. 以下の文字列を,通常のU…

7/25〜 楽天技術研究所 New Yorkへインターンに行って参ります

前回のブログ書き込みから、1年近くたってしまいました(汗 だんだん、補完していこうと思います。さて、7/25から、楽天技術研究所 New York様へ、3ヶ月のインターンに行ってまいります。日本に帰ってくるのは、10月27日になる予定です。貴重な夏期インター…

第3回SBM研究会

第3回SBM研究会で発表してきました. 講演の内容を,id:TheTocotonist さんが,こちらで,詳しく記述してくださっています.スライドをSlideshareで公開いたしました.

統計数理研究所はGoogleマップに対応

統計数理研究所はGoogleマップに対応しているようです。

Wolfram Alphaを早速試してみた

Mathematicaを考案した、あのWolframが作った検索エンジン(?)、Wolfram Alphaを早速試してみた。CNETでは、「検索エンジン」として紹介されているが、Wolfram Alphaは、GoogleやYahooのような、Webページを探し出すための検索エンジンにとどまらない。Wol…

キーボードとマウスにこだわらない人が最低限こだわること

id:mamorukさんが、「キーボードとマウスへのこだわり」ということで記事を書かれたので、自分も、書いてみることにしました。実は、自分は、長年パソコンを使っているにしては、「キーボードとマウスにこだわらない人」だと思います。こだわらない理由は、i…

SSDの意外な盲点:Cygwinの.bash_history

前回の記事にも書いたが、SSDのマシンEeePC S101を導入して一週間。今のところ、すこぶる快適です。で、今日はちょっとした盲点を見つけたよ、というお話。Cygwinは、読み出しが主だろうと思ったので普通にCドライブに入れているのですが、意外な盲点が。そ…

EeePCとSSDと、E-mobileのユーティリティが常にログを書いている話

最近、SSDがブームですね。SSD採用のノートパソコンが欲しかったのですが、普段使っているLet's noteが保証の問題などでSSD換装できなかったので、EeePC S101を購入しました。もちろん、メモリは2GB(2500円程度!安くなったものですねぇ)に取り替えました…

振り込め詐欺とパターン認識

NHKの新番組、追跡AtoZを見た。バンキシャのNHK版のような構成だが、NHKだから取材力が段違い。今日のテーマは振り込み詐欺(オレオレ詐欺)。振り込め詐欺を行うためには、金を引き出せる他人名義の銀行口座がいる。この銀行口座がどのように供給されている…

OSがシングルタスクだった、あの頃

自分が、初めてプログラミングをした春からカウントして、今年で13年目になる。 ちょっと懐かしのPC-98x1時代のキーワードを列挙してみる。 system(トントカイモ) gosub 行番号 beep MASM INT 21H INT 18H CONFIG.SYS EMM386.exe HIMEM.SYS UMB 常駐 autoe…

GREEの第17回オープンソーステクノロジー勉強会「誤解と実際 〜 「パブリックイメージ」と自身が関わってきた「でびあん」について」参加記録

第17回オープンソーステクノロジー勉強会に行ってきた@六本木。参加動機は、大学1〜2年までは、LinuxはずっとDebianを使っていたから。Fedoraが騒がれ始めたころから、Fedoraに移ってしまったけど。この記事で言いたいのは、次の二つ。 Debianプロジェクト…

ブログの名前

多くのブログは、「〜のブログ」とか「徒然日記」とかいう名前になっている。これでは、よっぽどおもしろいことを書かないと注目されないし、何より、検索するときに同じようなタイトルのブログがたくさんひっかかることになってトップに来ない。検索時に自…

blogeyeが北朝鮮のミサイル発射を捉えていた

大倉務氏がIPAの未踏事業の協力を受け開発した、blogeyeというシステム。ブログ界で話題になっているキーワードが分かるのだが、「何県の」「何十歳代の」「男性/女性」の間で話題になったキーワードかも分かる。今回の北朝鮮のミサイル発射が、どこでどのよ…

単体法と内点法

最適化法 (工系数学講座 17)作者: 田村明久,村松正和出版社/メーカー: 共立出版発売日: 2002/04/01メディア: 単行本購入: 2人 クリック: 27回この商品を含むブログ (8件) を見るこの2章、線形計画問題の章を読んでいるのですが、どうもよくわかりません。結…

世界の言語入門

世界の言語入門 (講談社現代新書)作者: 黒田龍之助出版社/メーカー: 講談社発売日: 2008/09/19メディア: 新書購入: 3人 クリック: 14回この商品を含むブログ (29件) を見る世界の言語、90語についての話が載っているということで、おもしろそうなので買って…

系列ラベリングのための Forward-Backward アルゴリズムの一般化

これも、頑張れば、breakthroughになりそうな研究。前向き後ろ向きアルゴリズムというと、隠れマルコフモデル(HMM)のBaum-Welchアルゴリズムが有名だけど、実は、HMMに限らず、前向き後ろ向きアルゴリズムで行っている計算は、系列ラベリングを行う時に本…