[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[cgreek-ja:00869] Re: miscellaneous symbols in tlg
高橋さん、
> もし特別の意味を持っているのだとしたら、たとえ形が似ていても別の字で代
> 用するのはちょっとためらってしまいます。たとえば {diple} のように特別
> な文字列で明示的に表した方がテキストを計算機で機械的に処理するときは便
> 利でしょう。
>
> 一方、人間が見るときは機械的な処理のしやすさよりも、形が似てた方がずっ
> と読みやすいはずです。うーん、どうしましょうか。オプションで人間用出力
> と機械用出力を変えるようにすべきでしょうか。
今、改めて TLG Beta Code Summary (On line version) を見てみました。
"Text Symbols" の所には、Diple の他にもずいぶん色々なものがありますよね。
他にも、TLG Beta Code には、Uni Code では定義されていないであろう文字が
相当数あります。
私が以前、tlg2emacs の最初のバージョンを Emacs Lisp で書いたときにも、
この問題にぶちあたりました。特に「括弧類」(parenthesis, bracket) にこの
ようなものが多くて大分閉口しました。その時には、「見やすさ」ということを
考えて「類似の記号」でコンバートするようにしたので、高橋さんが書き直して
くださった現在の tlg2emacs でも、また、それをもとに Smith 氏が書かれた
tlgcites2emacs でも、そのようになっているかと思います。
TLG Beta Code には、他にもずいぶん沢山の記号があって、私は、どれをどの文
字に対応させようか、と考えている内にいい加減辟易してきて、ほとんど使わな
さそうなものは、無視するようにしました。
それで、unicode version ですが、とりあえず必要なのは、全体のポリシーを決
めることのような気がします。ポリシーとしては、
(1) 学問的厳密さを優先させて、unicode にない文字は {diple} のように
出力する
(2) 可読性を優先させて、unicode にない文字は類似の文字で出力する。
(3) TLG にある文字を「特殊文字コード」あるいは「プライベート文字コード」
のようなものとして定義する。(もし可能ならばの話ですが)
あたりが考えられると思います。
理想的には、(3) が一番よいのでしょうが、現実には、これは相当に大変なこと
だと思います。
それと、日本語やラテン文字の場合にも、研究者は、コンピュータにない文字に
ついては、それぞれ何らかの文字で代用しているのが現状なので、(3) を実装す
る必要が本当にあるのか、という気もしてしまいます。
# 「今昔文字鏡」のようなものもありますが ....
そこで、とりあえず Windows 版の TLG 検索ソフトでどのようにしているかが、
やはり知りたいところですね。
Windows 版のギリシア語文字コードは一バイトなのでこのような記号を入れる余
裕はないですから、もしこのような記号が正確に表示されているとしたら、
"symbols" などの Code Table を作ってあると考えられますが、もしそのような
Code Table が表示できれば、フォントを作るのも大分楽になるので (3) の可能
性も出てくるとも思います。
>鎌田さん、川添さん、いかがでしょうか。
# 高橋さんが前のメールでおっしゃっていた tlg0012.txt というのは、見てみ
# ましたらホメロスですよね。ホメロスは古典学者の間では、基礎中の基礎な
# ので、参照度は極めて高いと思います。そのテキストをコンバートしたとき
# {diple} などが出てくるのはちょっと、という気もしてしまいます。
==========================================
水落 健治
明治学院大学 一般教育部
E-Mail: mizuochi@xxxxxxxxxxxxxxxxxxxxx
knj_miz@xxxxxxxxxxxxx
==========================================