告知など


2003-08-10 [Sun] 台風一過

台風一過。抜ける青空。

しかし東京の青空は、いまひとつ鈍い色をしている気がしてならない。

それでも、どこか霞みがかった青空の中にも、人々は夏を感じるのである。

てっきり、デルタはあのお姉ちゃんがそのまま戦うのかと思っていたら、あっさり

死んでしまった。しかし、これによってファイズが決定的にオルフェノクを憎む

理由が出来たわけで、このさきウマフェノクとの絡みとかが面白くなると思われる。

まあ、まだ全ストーリーの半分までしか来ていないしね。


「日記文書の近似度を用いた似た者同士検索システム」のプロトタイプを作り始める。

とりあえずwww.readmej.comに登録してあるリストを入手する。約28000件あるが、

これが特殊なアクセス方法になっていて、ちと面倒だった。時間もかかるし。

まず入手した1000件分を使うことにする。

で、この1000件分のHTMLかテキストだけを、ごそっとgetする。ここでもwgetの挙動が

いまいち期待どおりでなく、すこしてこずる。

さてgetしようとしたら、途中で刺さるサイトが多数。wgetのtimeoutを短く設定して

再挑戦。パラでgetできるようにしたので、二つのプロセスを同時に走らせて、だいたい

2時間で1000サイトをget完了。約260MB。これにmknmzする。約1時間。

クラスタリングのプログラムを走らせて寝ることにした。さて何時間かかるだろう。

やることは、サイト単位のテキストを一つのファイルにまとめて、テキスト同士の

近似度を求めてクラスタリングすること。後半はnamazuとnamazuを使った既存のクラ

スタリングのプログラムを使ってできる。やっぱり結構ディスクとCPUパワーを食う

わけで、効率的に実装をしようとすると、色々と技が必要だろう。

getして単語抽出して、namazuのindexに追加したらファイルを消すとか。

差分だけmknmzするとか。差分だけクラスタリングするとか(特にクラスタリングの

処理が重いので、これ重要)。今は毎回全計算になるので、激しく時間がかかる。

うちの遅いマシンではやってられない。

実質検索エンジンを作るのと同じわけで、小技が必要になりそうです。


INFORMATION OF EARTHLIGHT TECH NOLOGY <kimoto@earthlight.jp>