From mikichika.papa @ gmail.com Thu Jul 16 07:48:39 2009 From: mikichika.papa @ gmail.com (t.kuriki) Date: Thu, 16 Jul 2009 07:48:39 +0900 Subject: [mecab-users 373] =?iso-2022-jp?b?YXV0b2xpbmsbJEIkSyREJCQkRhsoQg==?= Message-ID: はじめて投稿します クリキです よろしくお願いします 長い単語にautolinkがはれずに悩んでいます - 実行例 mecab -d /usr/local/lib/mecab/dic/autolink 神奈川新聞花火大会 神奈川新聞花火大会 - url.csv 神奈川新聞花火大会,0,0,-32768,省略 神奈川新聞,0,0,-23237,省略 花火大会,0,0,-16627,省略 - char.def DEFAULT 1 0 0 SPACE 0 1 0 0x0020 SPACE - matrix.def 1 1 0 0 0 - unk.def DEFAULT,0,0,0,* SPACE,0,0,0,* - dicrc dictionary-charset = utf-8 cost-factor = 800 bos-feature = BOS/EOS output-format-type=autolink node-format-autolink = %M unk-format-autolink = %M eos-format-autolink = \n - 環境 OS:Fedora8 ご教授お願いします -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/mecab-users/attachments/20090716/5a3ced98/attachment.htm From kazum-ta @ jeans.ocn.ne.jp Fri Jul 17 09:57:10 2009 From: kazum-ta @ jeans.ocn.ne.jp (TAKAOKA Kazuma) Date: Fri, 17 Jul 2009 09:57:10 +0900 Subject: [mecab-users 374] Re: =?iso-2022-jp?b?YXV0b2xpbmsbJEIkSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: <47f971420907161757s6ed593abgc00a037f49309151@mail.gmail.com> 高岡です。 2009/07/16 7:48 に t.kuriki さんは書きました: > - 実行例 > mecab -d /usr/local/lib/mecab/dic/autolink > 神奈川新聞花火大会 > 神奈川新聞花火大会 > > - url.csv > 神奈川新聞花火大会,0,0,-32768,省略 > 神奈川新聞,0,0,-23237,省略 > 花火大会,0,0,-16627,省略 > (snip) > - matrix.def > 1 1 > 0 0 0 コストを計算すると、 神奈川新聞花火大会: -32768 神奈川新聞/花火大会: (-23237) + 0 + (-16627) = -46474 なので、分割する方が優先されているのではないでしょうか。 連接コストを13706以上にすれば、1単語の方を優先してくれるとおもいます。 -- 高岡一馬 From taku @ chasen.org Sun Jul 19 03:37:38 2009 From: taku @ chasen.org (Taku Kudo) Date: Sun, 19 Jul 2009 03:37:38 +0900 Subject: [mecab-users 375] Re: =?iso-2022-jp?b?YXV0b2xpbmsbJEIkSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: <4107257f0907181137j2fe10d8awef25779c7cb5fd27@mail.gmail.com> 2009/07/16 7:48 に t.kuriki さんは書きました: > はじめて投稿します > > クリキです > よろしくお願いします > > 長い単語にautolinkがはれずに悩んでいます > > - 実行例 > mecab -d /usr/local/lib/mecab/dic/autolink > 神奈川新聞花火大会 > 神奈川新聞花火大会 > > - url.csv > 神奈川新聞花火大会,0,0,-32768,省略 > 神奈川新聞,0,0,-23237,省略 > 花火大会,0,0,-16627,省略 区切りの候補が複数ある場合は、コストの和が小さい方が使われます。 -23237 + (-16627) = -39864 < -32768 なので、分割されるほうが優先されます。 神奈川新聞花火大会 のコストを -39864 より小さくすればいいのですが、cost の範囲は 16bit の符号あり整数なので、-32768 より小さくすると、アンダーフローします。 最長一致して欲しい場合は、アンダーフローに中止しつつ 単語の長さに比例以上のスケールで小さくなるようなコスト関数にする必要があります。 一般には、-C * ( length(単語) ^ 1.2) のような関数にして、C を適当に調節してみてください。 From nba00671 @ nifty.ne.jp Thu Jul 30 11:16:59 2009 From: nba00671 @ nifty.ne.jp (nydela) Date: Thu, 30 Jul 2009 11:16:59 +0900 Subject: [mecab-users 376] =?iso-2022-jp?b?V2luZG93cyAbJEI0RDYtJEclZiE8JTYhPDwtPXEkckcnGyhC?= =?iso-2022-jp?b?GyRCPDEkNyReJDskcxsoQg==?= Message-ID: <4A71029B.4000904@nifty.ne.jp> お世話になっております。 今般、ユーザー辞書を作成してみました。 DOS コマンド画面から、c:\Program Files\Mecab\bin>mecab -u../dic\ipadic\mecab_userdic.dic とやって実行すると確かにユーザー辞書に ある単語を認識して処理します。 しかし、このユーザー辞書のありかを etc/mecabrc に、 ; Added (2009/7/30) userdic = ../dic/ipadic/mecab_userdic.dic と記述して、perl から呼びだしてみましたらあっさりと無視されてしまいました。 ディレクトリ構造は: c:-+-Program Files-MeCab-+-bin              |              +-dic-ipadic-mecab_userdic.dic              |              +-etc-mecabrc (以下省略) です。 システムの再起動とか必要なんでしょうか。 バージョンは 0.98pre2、OS は Windows XP Pro. SP3 です。 アドバイスよろしくお願いします。 ash