C#のWebRequest
に問題があります。それはGoogleのページです。Webサイトを読む際のエンコーディングの問題、3つの異なるエンコーディング
ヘッダ状態
text/html; charset=ISO-8859-1
ウェブサイトの状態
<meta http-equiv=content-type content="text/html; charset=utf-8">
そして、私はSystem.Text.SBCSCodePageEncoding
Encoding.Default
デフォルトを使用する場合、最後に私は、デバッガで期待された結果と同様に、正規表現を取得します
ここで私は何をしますか?これがどうやって起こるか、あるいは私がこの問題をどのように解決できるか、何かヒントがありますか?
実際のページのエンコーディングはUTF-8のようです。少なくともFFでは、Windows-Whateverのではなくで、UTF-8では正しく表示され、ではなく、のLatin1で正しく表示されます。
URLはthis
問題は€-signだけでなく、すべてのドイツ語のウムラウトです。
私は真剣に狂っているこの問題の助けを前にありがとう!
更新:それはすべて正常に動作します私は、出力文字列を
// create a writer and open the file
TextWriter tw = new StreamWriter("test.txt");
// write a line of text to the file
tw.WriteLine(html);
// close the stream
tw.Close();
経由。
だから、問題は、デバッガが正しいエンコーディングと正規表現を表示していないようです。
RegExをUTF-8として処理するようにC#に指示するにはどうすればよいですか?
はあなたが別のエンコーディングから、あなたの文字列を変換するために、関連するエンコーディングクラスに 'GetBytesメソッド()'メソッドを使用してに見たことがありますか? – RobV