Jsoupを使用してWebページからデータを抽出する必要があります。Jsoupを使用してWebページからタグなしのテキストを取得
私はタグに含まれているデータを簡単に抽出しましたが、まだタグ付けされていないデータが必要です。
これは、HTMLソースの例です:
<a id="aId" href="aLink" style="aStyle">
<span id="spanId1">
<b>Caldan Therapeutics</b>
Announces Key Appointments And A Collaboration With
<b>Sygnature Discovery</b>
</span>
<span id="spanId2" style="spanStyle2">
5/17/2016
</span>
</a>
私はすでに<b>
タグに含まれるデータだけでなく、日付を抽出しますが、私が今したいことは、文Announces Key Appointments And A Collaboration With
を抽出することであるしています。
ご覧のとおり、この文にはタグはありません。
私はそれを抽出するために何ができますか?
私は既に研究を行っており、すべてのタグを削除する方法がわかりました。
ありがとうございました!
この投稿をフォローしてください。http://stackoverflow.com/questions/12943734/jsoup-strip-all-formatting-and-link-tags-keep-text-only – shankarsh15
私はすでにそれを見ていますhtmlタグを取り除くそれは私が望むものではありません。私が望むのは、タグなしの文章のみを抽出することです。「重要な予定と協力を発表する」 – user1885868