Taku Kudo
taku****@chase*****
2006年 1月 14日 (土) 11:49:06 JST
工藤です。 話が前後して申し訳ありません > こののち configure を実行したところ、次のエラーが出て止まってしまいました。 > ------- > config.status: creating Makefile > sed: file ./confstatrc6890/subs-2.sed line 9: unterminated `s' command > config.status: creating mecab-ipadic.spec > sed: file ./confstatrc6890/subs-2.sed line 9: unterminated `s' command > make: *** ターゲットがありません。中止。 > エラー: ~/rpm/tmp/rpm-tmp.87220 の不正な終了ステータス (%build) mecab-config が正しくインストールされていますでしょうか? elm:mecab% mecab-config --version 0.90rc6 古いバージョン (0.81) だとうまく動作しません。 > 別件ですが、 > http://mecab.sourceforge.jp/#download > > Canna dic > > * Canna 辞書: 公開予定 > これはどういったものになるのでしょうか。 > cannadic は頻度指定の甘さが気になるので、 > (辞書についての考えは scim-imemgine-dev に書きました。 > http://lists.sourceforge.jp/mailman/archives/scim-imengine-dev/2006-January/000864.html ) > 頻度を補正するようなものであれば > Anthy の精度向上にも役立つのではないかと期待しています。 鍵はコスト値の推定にあります。おもに 1. 内省に基づき人手でチューンする 2. 大量のテキストのみから推定する 3. 正しく解析されたタグ付きデータを人手で作成し、そこから推定する という3つの方法があります。 3番目の方法が一番精度がよく、内省に依存しないためコンシステントな コスト推定が行えます。ipadic, jumandic の作成は 3 番目の方法でやっています。 ただ、問題は cannna は 3番目に必要なタグ付きデータがないことです。 そこで、2番目の大量のテキストのみからコスト推定する方法をとりあえず 使ってみます。具体的には隠れマルコフモデル(HMM)を使います。 大量のテキストはたとえば wikipedia 等が利用できるでしょう。 ただ、過去の経験からだと、HMM はそんなに優れた方法ではないので、 少量のタグつきデータを作るかもしれません。タグ付きデータ作成とは、 Cannna の辞書体系で正しく形態素解析されたデータ (MeCab の理想的な出力) の作成です。CRF という方法を使うとわりと少量のデータで十分な精度が 得られると思います。(たぶん数百文程度) > なお、大泉さんというかたが 公式版の cannadic に見出しと表記を > 大幅に追加した "cannadic改" を公開しておられるので、 > http://homepage2.nifty.com/jjade/alt-cannadic/ > こちらの辞書をベースにされるのも良いかと思います。 > > 大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので > 同音異義語などの変換には弱いのですが、 > 非常に良く整理されていて新語も大量に追加されているので、 > これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと > 思っています。 ありがとうございます。確かに高品質の辞書を使ったほうがいいですね。 -- taku