2011-07-30 27 views
2

英語と中国語の記述があります。英語と中国語の文字を解読するPHPの正規表現

行に漢字が含まれている場合はA、ほかにBを使用すると、正規表現を使用してどのように表現できますか?

ここでは例

电源: 110V/220W50-60HZ 
功率:60W 
光源:12V 150 W 
尺寸:220x150x280mm 
重量:2.3KG 



Voltage : 110V/220W50-60HZ 
Power : 60W 
Bulb : 12V 150 W 
Size : 220x150x280mm 
Weight:2.3KG 
+0

エンコードがUnicodeの場合、英字は0x0041〜0x005Bおよび0061〜007Bのコードで、中国語の文字は0x4E00〜0x4FFFのコードです。あなたの正規表現が文字コードの一致をチェックする可能性があります。 –

+5

StackOverflowを検索してみませんか? http://stackoverflow.com/questions/1550950/detect-chinese-multibyte-character-in-the-string –

+0

は、あなたが中国に英語から翻訳し、または正規表現を介してそれらを区別したいですか?私は本当に 'ディリファー'の部分を取得していません。 –

答えて

4

漢字が範囲内にある:U+4E00..U+9FFF

あなたEXPREG拡張がUnicdeをサポートするように構築されている場合は、b\p{InCJK_Unified_Ideographs}[\x{4E00}-\x{9FFF}]ための良い代替である(リンクイェンスでしたStruweは与えた)。

あなたは、ほとんどが(?すべて)のUnicodeのがここで範囲を見つけることができます:http://www.regular-expressions.info/unicode.html

私はあなたが達成したいのかわからないんだけど、多分良いスタートがラインによってあなたの説明を分割することになります。次に、各行について、中国語かどうかを調べ、適切な正規表現を実行します。 ;)

関連する問題