Re: CRFパラメータ学習について (mecab-users 95) - MeCab

工藤です

> > ipadic の場合38,000文(約38MB) の学習コーパスを学習するのに 2~3Gの
> > メモリがいります。JUMANの辞書は、曖昧性がかなありあるので、
> > 同じぐらいのサイズの京都大学コーパスを使うのに、20GB ぐらい
> > いります。
>
>   こちらのコーパスは70MBぐらいありました。メモリ20GBとなると、64bit
> CPUじゃないと処理できないですね。

そうですね。ipadic はなんとかできるのですが、JUMAN の辞書は、
Opteron マシンで学習しています。

>   とりあえず、コーパスの無駄を省くところから考えてみます。どうもありが
> とうございました。

可能性としては、適当なサイズにコーパスを分割して、できあがった
テキストモデルファイル (model.txt)　の平均を取るという方法があります。

Feature Bagging という方法に似ています
http://www.cs.umass.edu/~mccallum/papers/ir402bags.pdf

-- taku

MeCab

[mecab-users 95] Re: CRFパラメータ学習について