PostgreSQLで日本語全文検索 (文字コードはUTF-8)
ということですが、やっぱりみんな困ってるんだなぁ。
NTTの寺本さんがつくられたkakasi+tsearch2をベースにして、分ち書き部分をmecabに置き換えたものを先日作ってみました。一応UTF-8でちゃんと動作しているようです。(まだ公開はしていません)
先日お会いした寺本さんによると、kakasiもCVS版ではUTF-8に対応しているそうなので、それを用いても大丈夫なんじゃないかとのこと。
他には
- 永安さんのpg_rast http://blog.postgresql.jp/28
- pg_senna http://d.hatena.ne.jp/lestrrat/20050822#1124709406
というのもあるようです。