[Gauche-devel-jp] Re: 日本語文字集合

アーカイブの一覧に戻る

Alex Shinn foof****@synth*****
2003年 11月 21日 (金) 12:23:19 JST


At Thu, 20 Nov 2003 01:33:59 -1000 (HST), Shiro Kawai wrote:
> 
> このエラーはsrfi-14.scmのバグでした。次のパッチを当てれば通ります。

直しました、有り難う。UTF-8とEUC-JPのGaucheを同時に使う為に、
/usr/local/lib/gauche/eucにEUC-JPのlibcharconv.soをインストールして、ト
ランポリンを作りました:

$ cat /usr/local/bin/gosh-euc
#!/bin/sh
exec gosh-euc.bin -I/usr/local/lib/gauche/euc $*

> > ハングルもキリルも幾つか文字集合を定義しましたが、勿論UTF-8だけです。
> 
> キリルは無理矢理jisx0208の記号にマップできるかも?

殆どマップ出来ますが、何となくキリル文字があればEmacsはEUC-JPでファイル
をセーブ出来ません。ギリシア文字も同じです。

> このような、(自然)言語依存の処理をまとめるモジュール階層が欲しいなと
> 思っています。Unicodeの正規化やcase mapping等も、まともに処理するには
> 色々補助ライブラリが必要になりそうですし。

ファイルの文字コードを選択できれば便利だと思います。なぜならUnicodeの数
字の代わりに文字を書けます。やはり、やって見るとこれは動かないです:

(load-from-port (wrap-with-input-conversion (current-load-port) "UTF-8"))

> 日本語の形態素解析等もそういった階層に混ぜるとすれば、候補は
> lang.* か、あるいは text.* とするか…

恐らくPerlの通りにlingua.*とします(lang.*はコンピュータ言語にする)。
gengo.*なら面白いですね。

-- 
Alex



Gauche-devel-jp メーリングリストの案内
アーカイブの一覧に戻る