Re: mecab-ipadic-2.7.0-20051110 の make ができません (mecab-users 24) - MeCab

工藤です。

話が前後して申し訳ありません

> こののち configure を実行したところ、次のエラーが出て止まってしまいました。
> -------
> config.status: creating Makefile
> sed: file ./confstatrc6890/subs-2.sed line 9: unterminated `s' command
> config.status: creating mecab-ipadic.spec
> sed: file ./confstatrc6890/subs-2.sed line 9: unterminated `s' command
> make: *** ターゲットがありません。中止。
> エラー: ~/rpm/tmp/rpm-tmp.87220 の不正な終了ステータス (%build)

mecab-config が正しくインストールされていますでしょうか？

elm:mecab% mecab-config --version
0.90rc6

古いバージョン (0.81) だとうまく動作しません。

> 別件ですが、
> http://mecab.sourceforge.jp/#download
> > Canna dic
> > * Canna 辞書: 公開予定
> これはどういったものになるのでしょうか。
> cannadic は頻度指定の甘さが気になるので、
> (辞書についての考えは scim-imemgine-dev に書きました。
> http://lists.sourceforge.jp/mailman/archives/scim-imengine-dev/2006-January/000864.html )
> 頻度を補正するようなものであれば
> Anthy の精度向上にも役立つのではないかと期待しています。

鍵はコスト値の推定にあります。おもに

1. 内省に基づき人手でチューンする
2. 大量のテキストのみから推定する
3. 正しく解析されたタグ付きデータを人手で作成し、そこから推定する

という3つの方法があります。

3番目の方法が一番精度がよく、内省に依存しないためコンシステントな
コスト推定が行えます。ipadic, jumandic の作成は 3 番目の方法でやっています。

ただ、問題は cannna は 3番目に必要なタグ付きデータがないことです。

そこで、2番目の大量のテキストのみからコスト推定する方法をとりあえず
使ってみます。具体的には隠れマルコフモデル(HMM)を使います。
大量のテキストはたとえば wikipedia 等が利用できるでしょう。

ただ、過去の経験からだと、HMM はそんなに優れた方法ではないので、
少量のタグつきデータを作るかもしれません。タグ付きデータ作成とは、
Cannna の辞書体系で正しく形態素解析されたデータ (MeCab の理想的な出力)
の作成です。CRF という方法を使うとわりと少量のデータで十分な精度が
得られると思います。(たぶん数百文程度)

> なお、大泉さんというかたが 公式版の cannadic に見出しと表記を
> 大幅に追加した "cannadic改" を公開しておられるので、
> http://homepage2.nifty.com/jjade/alt-cannadic/
> こちらの辞書をベースにされるのも良いかと思います。
>
> 大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので
> 同音異義語などの変換には弱いのですが、
> 非常に良く整理されていて新語も大量に追加されているので、
> これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと
> 思っています。

ありがとうございます。確かに高品質の辞書を使ったほうがいいですね。

-- taku

MeCab

[mecab-users 24] Re: mecab-ipadic-2.7.0-20051110 の make ができません