2011-01-24 22 views
1

アンカーテキストの前後(アンダーテキスト)のHTMlブロックレベルエレメントの前後に7ワード句読点も含まれます)。アンカーテキストを囲む単語を抽出する

+0

サンプル入力テキストと抽出する内容を入力する必要があります。 – dogbane

+0

ex:href = http:// .... "アンカーテキスト" sometext。これから、「アンカーテキスト」の前のテキストと「アンカーテキスト」の後に続くテキストを抽出したいと思います。 – Naveen

答えて

0

これにはregular expressionを使用できます。

+0

Ya thanks ..しかし、私は私の目的のための正規表現を構築できませんでした.Plz私の仕事を実行する正規表現で私を助ける – Naveen

0

hrefから新しいURL()を作成し、ホスト部分のみを取得しますか?このクラスを見てください。

アンカーを見つけてhref属性を取得するには、Jerichoライブラリをお勧めします。私は、HTML/XMLのサンプルを解析する必要があり、XMLの検証が不要なときにはいつも使っています。すばやく使いやすく、プロジェクトのページに多くの例があります。

関連する問題