まず、アンカーされたタグをすべて解析し、hrefタグを解析してから、独立したリンクではないすべてのタグを削除するために正規表現を実行して、httpリンク用のWebページを解析しています= "/ img/link.php")。次のコードは正しく動作しますが、解析されたリンクの間に多くの空白行が追加されます。この問題を解決するにはリンクの解析と余分なブランクの受信
while (parse.ParseNext("a", out tag))
{
string value;
//A REGEX value, this one finds proper http address'
Regex regexObj = new Regex(@"^http\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(/\S*)?$");
if (tag.Attributes.TryGetValue("href", out value))
{
string value2;
//Start finding matches...
Match matchResults = regexObj.Match(value);
value2 = matchResults.Value;
lstPages.AppendText(value2 + "\r\n");
}
}
は、私は次のコードを追加し、それがリストをクリーンアップするために動作します:
if (value2 != "")
{
lstPages.AppendText(value2 + "\r\n");
}
しかし、私
- は、これが最も効率的であると信じてはいけませんこれについて行く方法と
- まだ
!= ""
行がどこから来たのかわかりません。
私の実際の質問は、これらの結果を受け取る理由を知りたいと思っています。
この回答は 'matchResults.Value ==" "'時間の一部を説明していません。 -1 –