[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index][TOP]

カタカナ語の揺れの自動リストアップ


ja.po に出現するカタカナ語 (Unicode の Katakana ブロックに
ある文字の連続したもの) をリストアップするスクリプトを
書いて動かすようにしてみました。
http://www.gnome.gr.jp/~kusano/gnome.po.d/katakana-words.txt

また、長音引きのある無し、「・」のある無しで揺れてるものを
調べ、それらをリストアップするようにしてみました。
対訳表のデータも参照しています。

* 末尾に「ー」がある単語と、無い単語が存在していた場合、
  自動的にある単語のほうを正規のものであると判断
* 途中に「・」があるものとないものが存在していた場合、
  ない単語のほうを正規のものであると判断
* 対訳表に別途リストアップしたものがあれば、それを優先

として、それぞれの「正規でない」単語と、それが出現する
アプリケーションをリストアップしています。
http://www.gnome.gr.jp/~kusano/gnome.po.d/odds.txt

また、それらの「揺れ」をアプリケーションごとに
並べたものもリストアップしました。
http://www.gnome.gr.jp/~kusano/gnome.po.d/odds-byfile.txt

-- 
 Takayuki KUSANO / kusano@xxxxxxxxxx