Re: anthy の変換精度向上 (Anthy-dev 879) - Anthy

岡本です.

<20040****@hct*****>の記事において
mover****@hct*****さんは書きました。

>> どうも、kzkです。
>> 
>> 岡本さん、非常に参考になる情報を有難う御座いました。
>> 変換エンジンなんて敷居が高いと思って今までちょっとソースコードを
>> 読むのを躊躇していたのですが...
>> 変更を行われた場合には頑張ってコメントを付けるようにしたいと思います。

ありがとうございます.

>> そして少し質問が有るのですが、アルゴリズムの向上(Splitterの改良)というのが
>> 変換精度向上の糸口として上げられていますが、具体的にどういう改良を施される
>> つもりなのでしょうか？そして、その成果はどうやって確かめられるんでしょうか？
>> 
>> この辺りがまだ俺の中では暗黒っぽいのですが。
>> 
>> よければ御返事下さいm(_ _)m

まずsplitter関連ですが, 具体的には以下のようなことを考えています.
# ほとんどad hocな改良になりそうな気もしますが, もう少しソースコードの
# 詳細が理解できれば, 思い付くことが増えるかもしれません.

  1. XCT_PART型の文字は今のもので足りているのかどうか検討し, 問題があれば
     改善する. 例えば, "ー" "ん" 等はXCT_PART型でも良いのではないか. 
  2. XCT_OPEN, XCT_CLOSE型の文字は今のもので足りているかどうか検討し, 
     問題があれば改善する. 例えば, "「" "’" 等を追加する.
  3. XCT_OPEN, XCT_CLOSE型について, それぞれopenであることとcloseであることを
     有効に使えるようにする. 現状では "引用符であること" しか使っていない.
  4. 文節に引用符を入れないようにする. 単なる「見た目」の問題かもしれないが,
     例えば"「"が直前の文節の一部になってしまうのは気持ちがわるい.

括弧に関するところに問題がありそうなことは,
test/test.txtの先頭に,

*たんなるみためのもんだいかもしれないが
-
*たんなる（みため）のもんだいかもしれないが
-

を追加して, test/の下で, ./anthy --from 1 --to 2 とやってみると
(感覚的に)理解できるのではないかと思います.

次に成果の確かめ方ですが, 正直, これを言われると弱いです.
うまい定量的評価ってどうすれば良いでしょうね？何か良いアイデアが
あれば教えて下さい^^;
個人的にはライトノベルを適当にとってきて, それのセパレート and/or 
変換がどれだけ正確に行われるかを見るのが良いのではないかと考えています.
その手の小説にはいろんな種類の文(普通の文, 説明的な文, 会話文)が
混じっているからです.

--------------------------------------------------------
岡本 暁広
henkm****@trans***** ((株)トランス・ニュー・テクノロジー)
henkm****@kmc*****    (京大マイコンクラブ)

Anthy

[Anthy-dev 879] Re: anthy の変換精度向上