[mecab-users 161] Re: Canna 辞書 の公開予定につきまして

アーカイブの一覧に戻る

Taku Kudo taku****@chase*****
2006年 8月 13日 (日) 17:50:20 JST


内海様

工藤です。お返事が遅れて申し訳ございません。

> さて、mecab のダウンロードページでは
> http://mecab.sourceforge.jp/#download
> > Canna 辞書: 公開予定
> となっていますが、おおよその公開予定はいつごろでしょうか。

じつは、作成すらしておりません。公開はまだまだ先になるかと
思います。

> cannadic では単語の頻度を人間が勘で指定しているため、
> 日常では使われないような単語が第一候補になってしまうことがあります。
> 頻度を機械的に補正した cannadic が現れれば、
> Anthy など cannadic を使用した変換エンジンの精度が
> 大きく上がるものと期待しています。

同意します。もっと統計処理を使って頻度情報をうまく提供できたらと
思っています。

> "cannadic改" をベースに 適切な頻度を付した辞書をリリースしてくださると
> とてもうれしいです。

まずやらなければならないことをリストアップしておきます。
できれば手伝っていただけると非常に助かります。

1. cannna dic の機能語の整理
 私の理解が乏しいかもしれませんが、canna dic には助詞や助動詞といった
付属語、機能語の単語が含まれていないような気がします。(おそらく canna
本体にハードコーディングされているのかも?) これらを明示的に単語として
取り出す必要があります

2. ipa 品詞体系とのアライメント
 これは結構厄介ですが、IPA の品詞体系と canna の品詞体系をできる限り
 1対1対応で対応付けると統計処理が容易になります。

-- taku



mecab-users メーリングリストの案内
アーカイブの一覧に戻る