0
ボイラパイプでは、ウェブページから記事のテキストだけを抽出して、HTMLのすべてを整理することができます。しかし、どのように記事の見出しを抽出することができますか?ページのタイトルを使用する方法がありますが、間違っていて不要な単語が含まれています(例: "title - sitename")。Boilerpipeを使ってHTMLから記事の見出しを抽出する(ボイラパイプを使用)
もう1つのアイデアは、<h1>
と</h1>
の間のテキストを見つけることですが、私はまだ解決策をいくつか質問します。
ええ、ちょっとヘッドライン抽出部分だけが必要です –
したがって、htmlの構造は非常に重要です。したがって、ウェブサイトは異なる構造を持っています。それは確かに仕事を尽くす時間です... –