文字コードや品詞IDの問題があってDebianパッケージのMeCabは使わず、ソースから入れてたんですが、mecab_dict_indexという辞書をコンパイルするコマンドが付いていることを知ったのでパッケージから入れた辞書をリコンパイルしてみました。(なるべくパッケージで管理したい)
パッケージのやつ(Ubuntu 7.04)だと文字コードがEUC_JPで品詞IDが使えない状態。
$ mecab -F"%m\t%h\t%H\n"
すもももももももものうち
すもももももももものうち 0 ????,????,*,*,*,*,*
mecab-dict-indexに”辞書の元テキストの場所”、”辞書ファイルの出力先”、”辞書の元テキストの文字コード”、”辞書ファイル文字コード”、”品詞IDを使うためのオプション”を指定してやる。
/usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic -o /var/lib/mecab/dic/ipadic -f euc-jp -t utf-8 -p
$ mecab -F"%m\t%h\t%H\n"
すもももももももものうち
すもも 38 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 16 助詞,係助詞,*,*,*,*,も,モ,モ
もも 38 名詞,一般,*,*,*,*,もも,モモ,モモ
も 16 助詞,係助詞,*,*,*,*,も,モ,モ
もも 38 名詞,一般,*,*,*,*,もも,モモ,モモ
の 24 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 66 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
ちゃんと出るようになった。
各言語のバインディングはlibmecab-devを入れとけば通るハズ。たぶんrpmでも似た感じでいけるハズ。