MeCabを使う時、辞書のインストールでこちらを参考にしてMakefileをいじらないと品詞IDが使えなくてはまる。
念のためこのページにも書いておこう。
http://keihanna.dl.sourceforge.jp/mecab/20904/mecab-ipadic-2.7.0-20060707.tar.gz
tar zxvf mecab-ipadic-2.7.0-20060707.tar.gz
cd mecab-ipadic-2.7.0-20060707
./configure --with-charset=utf8
vi Makefile
make
sudo make install
ipadicのMakefileの250行目あたりを変える
$(mecab_dict_index) -d . -o . -f euc-jp -t utf8 # 変更前
$(mecab_dict_index) -d . -o . -p -f euc-jp -t utf8 # 変更後
品詞IDが使えるとこんな感じで書けるので便利!
# 名詞かどうか
if (37..66).include?(node.posid)
それにしても最近はWebアプリのアイデアで、「その文章を形態素解析してリンクを張ろう」とか簡単に言うけど、完全にMeCabとかChaSenとかのおかげで、もしこういった成果が公開されてなかったら俺のような糞プログラマーには絶対無理ですな。大学と研究所の共同プロジェクトらしいですが、ナイス税金の使い方って感じです。国益です。
条件付き確率場?無制限多階層品詞?bi-gram マルコフモデル?ひとっつもわかんねえ・・・。これらのアプリがオープンソースであることに感謝します・・・。