2010-12-19 8 views
0

これはUTF-8の土地への私の最初の進出です。私はIIS Adminですので、これを専門的に触れることはありませんでした。私は、聖書をアフリカの言語に翻訳した宣教師を助けようとしており、現在は大規模なUTF-8ファイルとのグローバルマッチングを行う必要があります。特にアクセント付きの文字を照合しています。UTF-8正規表現の組み込みWinXP言語の推奨

ここでは古いXPコンピュータを使用しています。そのため、VBSのクイックスクリプトを一緒に飾って、言語が既にボックスにインストールされていることを知りました。数分間再生した後、VBS正規表現は各文字を2文字に分割してUTF-8を処理します。単一のâに一致するには、私のパターンは\ u00c3 \ u00a2です。これは\ u00e2ではありませんか?

私は自分の奥から出ているので、私は少しガイダンスを求めると思った。 UTF-8のように、この種のダブルマッチングが必要です(UTF-8が必要です)。誰かが私がコーディングしているキャニオンを教えてくれますか? :-)

PerlやJavaのダウンロードとインストールは、おそらくこのプロジェクトの帯域幅と技術的ノウハウの外にあります。ツールが組み込まれている必要があります。MS Officeがインストールされているので、特定のサポートを提供するライブラリがある場合、VBAはオプションです。 JavaScriptはインストールされていますが、どのバージョンがわかりません。

おかげ

+0

あなたがする必要があるのは、ファイルをUTF-8エンコーディングで読み込むことです。 RegexエンジンはUTF-8について何も知りません。 – Gabe

+0

ファイルを開いたり、読み込んだり、書き込んだりできることを確認しました。私が完了したら、元のファイルと同じようにUTF-8ファイルとしてWordを開きます。私はUTF-8形式で扱っていると確信しています。私はTristateUseDefaultを使用しています。私はTristateTrueを強制しようとしましたが、それがゴミになりました。 – codepoke

答えて

1

次の2個のまたはそれ以上の連続したドットを一致させる必要がない限り(例えば、あなたが持っている...か...あなたの正規表現ではありません。*)あなたはUTF-8で任意のASCII正規表現ライブラリを使用して期待することができますそれは正しく動作するように。

あなたが探しているものを知ることがそのトリックです。 UTF-8はそのようなバイト分割を行いますので、あなたがよく慣れているものにあなたの正規表現を書いて、それをUTF-8に変換し、 ".."が含まれていなければ動作します。

+0

本当にトリックです。私は私の表現のどれにもないので、それは扱いやすいものです。私が探しているすべての2文字の組み合わせを特定する必要がありますが、そうですか?それは実行可能です、ちょうど挑戦しています。 – codepoke

+0

正規表現がWindows-1252形式であることを私が正しく理解していれば、そうであれば、それらをメモ帳に保存し、フォーマットUTF-8を選択し、古い愚かなテキストエディタ(例えば、NT4のメモ帳)で開き、バイトを抽出します。 – Joshua

0

PowerShellについてはどうですか? .NET正規表現ライブラリを使用しています。これは、特にUnicodeをサポートするために使用できるライブラリの中でも最も優れています。

+0

素晴らしい提案。 PSがこれらのシステムにインストールされたことを願っています。 :-( – codepoke

関連する問題