2012-02-16 15 views
0

htmlファイルからすべてのタグと単語を(時系列に)抽出する必要があります。ファイルの例を次に示します: one two thre 出力には、配列またはこのようなリストがあります。 {""、 "one"、 "two"、 "thre"、 "}} jTidyやApache Tinaなどのツールがあることを知っていますが、これらのツールはドキュメントからテキスト(またはタグのみ)を抽出するためのツールです。 どうすればよいですか?JavaのHTMLから単語とタグを解析する

答えて

1

これにはJSoupライブラリを使用してください。これは、JavaでのHTML解析を非常に簡単にします。

関連する問題