2012-04-26 12 views
1

私は簡単な作業をしたい、iso-8859-1のファイルエンコードをUNICODEに変換したい。 docs.oracle.comユニコード、po2prop、native2asciiへの変換にはどうすればよいですか?

インターネットを見てみると

Characters less than \u0020 and characters greater than \u007E in property keys or values are written as \uxxxx for the appropriate hexadecimal value xxxx.

でJavaの仕様によれば、translation toolkit(とpo2prop)がはるかに優れている間のnative2asciiは、かなり古いですし、問題があるようです。

「à」のような文字を含むファイルに対して、\ 00e0(http://www.fileformat.info/info/unicode/char/00e0/index.htm)に変換されるようにするにはどうすればよいでしょうか? ?

私はかなり長い間これを見てきましたが、適切な答えを見つけることができませんでした。

+0

iso-8859-1に設定されたinputStreamReaderを使用してファイルを読み込んだ後、同様にUnicodeで出力できないのはなぜですか? – ControlAltDel

+0

私はこのようなスタンドアロンのバイナリを探していました。私が変換しようとしているファイルは、オープンソースプロジェクトの翻訳です。私は良いコーダーではないので、簡単なものを探しています – user322049

答えて

0

文字列をJSONとしてエンコードし、最後の引用符を取り除くことができます。しかし、他の通常のJSONのようなプロパティがエスケープする方法はわかりません...

+0

これを行うプログラムを私に提供できますか?私は、おそらく何百万回も(ずっと良い)出来上がったことをコード化することを避けたいと思っています。 – user322049

1

これは探しているかどうかはわかりませんが、UTF-8とISOを含むさまざまな入力テキストストリームの種類8859-1)と、さまざまな出力テキストストリームタイプ(UTF-16を含む)を私が後で書いた私のcrlfユーティリティに追加しました。プログラムには、制御文字を\udddd文字シーケンスとして変換するオプションがあります。それはATの


http://david.tribble.com/src/crlf.cpp
http://david.tribble.com/src/src.html

は、それがC++ではなく、Javaで書かれていることをあらかじめご了承ください。

+0

自分のシステムで自分のコードをテストしていました - > g ++(Debian 4.6.3-1)4.6.3 そして、私はこれを取得します: crlf.cppからファイルに含まれています:65:0: textstream.hpp:143:34 : ':'トークンの前に無効な純指定子( '= 0'のみが許可されます) ';'トークンの前に無効な純指定子( '= 0'のみが許可されます) textstream.hpp:146:14: .hpp:147:32:error: ';'トークンの前に無効な純粋な指定子( '= 0'のみが許されます) – user322049

+0

Eesh。 '= NULL'を' = 0'に置き換えてください。 C++の構文は、多くの場所で吸う。 –

関連する問題