[mecab-users 368] Re: Windows版MecabでのUTF-8使用について

アーカイブの一覧に戻る

Hiroaki Kawai hiroa****@gmail*****
2009年 5月 29日 (金) 15:06:10 JST


川井です。

Linux で 0.98pre2 を試してみました。
辞書は正しくコンパイルされ、「すももも〜」は正常に解析されました。
なので、やっぱり Windows 版固有の問題のようです。
文字セット変換部分も大幅に書き直されていて、Windows に
備わっている関数が呼び出されているので、そのあたりかも...?

Windows 上でビルドできればと思って試してみたのですが、
cl.exe がエラーを吐いて止まってしまって、試せずにいます。
# Microsoft Visual C++ 2008 Express Edition です。

【Windows Vista上で0.98pre2】
すもももももももものうち	名詞,一般,*,*,*,*,*
EOS
本日	名詞,一般,*,*,*,*,*
は	名詞,一般,*,*,*,*,*
晴天	名詞,一般,*,*,*,*,*
なり	名詞,一般,*,*,*,*,*
EOS

【Linux 上で 0.98pre2】
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
本日	名詞,副詞可能,*,*,*,*,本日,ホンジツ,ホンジツ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
晴天	名詞,一般,*,*,*,*,晴天,セイテン,セイテン
なり	助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
EOS

# Windows では、たぶん全部未知語になったのかと。


2009/05/28 10:46 柳原 啓美 <yanag****@two-t*****>:
> シーゲルさん、川井さん、ありがとうございます。
> 私の環境もシーゲルさんの仰るとおり、-unk-feature "未知語"
> オプションで実行すると、すべての言葉が未知語になります。
>
> [input.txt][UTF-8]
> 本日は晴天なり
>> mecab input.txt -o output.txt --unk-feature "unknown"
>> [output.txt]
> 本日      unknown
> は       unknown
> 晴天      unknown
> なり      unknown
> EOS
>
> 川井さんの環境では
>> ちなみに、「すもも〜」は解析できませんでしたが「本日は晴天なり」は
>> 解析できました。
> とのことですが、もし上記オプションありで検証可能でしたら
> お願いできますでしょうか?
>
> 以上です。
> --
> 柳原 啓美 <yanag****@two-t*****>
>
> _______________________________________________
> mecab-users mailing list
> mecab****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/mecab-users
>




mecab-users メーリングリストの案内
アーカイブの一覧に戻る