2011-01-07 12 views
0

私はJavaでいくつかの情報を含む文字列をチョップしようとしていますとURLをカットする方法:テキストはそのような何か..です正規表現

<a href="http://www.hootsuite.com" rel="nofollow">HootSuite</a> 

私は.splitメソッドを使用して考えていますそれは正規表現を必要とする.. 私は引用符なしのURLにこの文字列を分割する必要があります.. http:// ...... .com そしてこのタグの間のテキスト..この場合HootSuite ..

私は助けを感謝します ありがとうございます

+2

なぜHTMLパーサを使用してhref属性を抽出してみませんか?簡単ではるかに簡単です。 –

答えて

5

あなたはこれをしたくありません。 org.w3c.domのようなXMLまたはHTML解析スイートを使用したいとします。なぜ聞くの? you can't parse HTML with regexです。

+0

+1私は、インターネットの多くがひどく壊れたHTMLであり、もっともゆるいパーサーでさえも通過しないので、この回答を見るたびにライターがスパイダーを書いていないことを知っています。 –

+2

ありがとうございます。私はHTMLパーサを使用するつもりです。 – AhmadAssaf

+0

このタスクをより簡単にしたことは、常に同じ構造でHTMLを解析していることです... Twitter APIによって返送されるURLです..常に同じ構造ですが、パーサが最善の選択となると思います。 – AhmadAssaf

関連する問題