[mecab-users 95] Re: CRFパラメータ学習について

アーカイブの一覧に戻る

Taku Kudo taku****@chase*****
2006年 4月 29日 (土) 04:04:37 JST


工藤です

> > ipadic の場合38,000文(約38MB) の学習コーパスを学習するのに 2~3Gの
> > メモリがいります。JUMANの辞書は、曖昧性がかなありあるので、
> > 同じぐらいのサイズの京都大学コーパスを使うのに、20GB ぐらい
> > いります。
>
>   こちらのコーパスは70MBぐらいありました。メモリ20GBとなると、64bit
> CPUじゃないと処理できないですね。

そうですね。ipadic はなんとかできるのですが、JUMAN の辞書は、
Opteron マシンで学習しています。

>   とりあえず、コーパスの無駄を省くところから考えてみます。どうもありが
> とうございました。

可能性としては、適当なサイズにコーパスを分割して、できあがった
テキストモデルファイル (model.txt) の平均を取るという方法があります。

Feature Bagging という方法に似ています
http://www.cs.umass.edu/~mccallum/papers/ir402bags.pdf

-- taku



mecab-users メーリングリストの案内
アーカイブの一覧に戻る