2011-09-17 18 views
0

htmlページからデータを取得しようとしています。このデータは画像リンクです。ページには常に異なる内容があるため、正規表現を使用するしかありません。私はimglinkJava正規表現ヘルプ

"<img src=\"(.*)\"" 

を取得するために使用していますどのような次のスタイル

<img src="imglink" alt="texttext textex" style="border:1px solid #FFFFFF"/> 

とページ上の唯一の試合は、私は正規表現を使用することについて知らない何かがそこにあるのですか?私はパイのように簡単でなければならないが、それは<後に私のすべてのテキストを取得し、/>

+1

は、なぜあなたはHTMLパーサーを使用していませんか? –

+0

どうすればよいですか?私はこの単純な仕事のためだけに別のライブラリを使いたくない。 – artouiros

+0

* "どうすればよいですか?" *:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags –

答えて

3

前に、できるだけ少ない文字を一致させるために非欲張りバージョン

"<img src=\"(.*?)\"" 

を使用してみてください。

注意:既知のテキストの単純な構造を持つ場合は、htmlやxmlを扱うための正規表現のみを使用してください。任意のhtlm/xmlでは、正規表現は使用しないでください。

2

大まかに言えば、区切り文字の間で文字を選択しようとすると、「。」ではなく「次の区切り文字」が選択句に挿入されます。したがって、この場合の

"<img src=\"([^\"]*)\""