Taku Kudo
taku****@chase*****
2006年 4月 29日 (土) 04:04:37 JST
工藤です > > ipadic の場合38,000文(約38MB) の学習コーパスを学習するのに 2~3Gの > > メモリがいります。JUMANの辞書は、曖昧性がかなありあるので、 > > 同じぐらいのサイズの京都大学コーパスを使うのに、20GB ぐらい > > いります。 > > こちらのコーパスは70MBぐらいありました。メモリ20GBとなると、64bit > CPUじゃないと処理できないですね。 そうですね。ipadic はなんとかできるのですが、JUMAN の辞書は、 Opteron マシンで学習しています。 > とりあえず、コーパスの無駄を省くところから考えてみます。どうもありが > とうございました。 可能性としては、適当なサイズにコーパスを分割して、できあがった テキストモデルファイル (model.txt) の平均を取るという方法があります。 Feature Bagging という方法に似ています http://www.cs.umass.edu/~mccallum/papers/ir402bags.pdf -- taku