Google

2010年12月14日火曜日

翻訳は辛い

お仕事で翻訳中。
別に私自身が堪能という訳でもなく、システムの多言語化対応のお仕事。
ローカライズをしたことがある方なら解るが、これが大変。

海外対応の仕事は過去何度かあるものの、何故か毎回言語切替システムが全くない。
おかげで毎回手動で組み込むハメになる。
大抵ぎりぎりスケジュールなので、システム拡張という判断はもらったことがない。
このへんは仕方ないところ。

で、マルチバイトなのでUTF-8に変換。
日本語がどこに入ってるかをGrepしようとしてはたと止まる。

「2バイトコードってどうやって検索するんだっけ?」

考えた結果、1バイトコードのアスキー部分をはねたらどうかということに気づく。
となるとASCIIコードの中の7Eぐらいまでを否定形で書けばいいかも知れん。
で、書いてみたのが以下。

[^\0x00-0x7E]

これをJGrep2等にかければあら不思議。
1行の中に現れる先頭日本語文字列が引っかかる。


[^]は否定なので、この範囲に入ってないものを検索してくれる。
0x00なんかはnull文字なんで関係ないかと思って0x01にすると、今度は空行とかがマッチする。
うーん、このへんは正規表現のアルゴリズムもあるか。

とにかく要求は満たせたので良しとする。

0 件のコメント:

コメントを投稿