0
htmlファイルからすべてのタグと単語を(時系列に)抽出する必要があります。ファイルの例を次に示します: one two thre 出力には、配列またはこのようなリストがあります。 {""、 "one"、 "two"、 "thre"、 "}} jTidyやApache Tinaなどのツールがあることを知っていますが、これらのツールはドキュメントからテキスト(またはタグのみ)を抽出するためのツールです。 どうすればよいですか?JavaのHTMLから単語とタグを解析する