Boilerpipeを使ってHTMLから記事の見出しを抽出する（ボイラパイプを使用）

ボイラパイプでは、ウェブページから記事のテキストだけを抽出して、HTMLのすべてを整理することができます。しかし、どのように記事の見出しを抽出することができますか？ページのタイトルを使用する方法がありますが、間違っていて不要な単語が含まれています（例： "title - sitename"）。Boilerpipeを使ってHTMLから記事の見出しを抽出する（ボイラパイプを使用）

もう1つのアイデアは、<h1>と</h1>の間のテキストを見つけることですが、私はまだ解決策をいくつか質問します。

出典

2016-10-21 Gintas_

ウェブクローラを作成していますか？難しい点は、タイトルがHTML全体のどこにあるのかを知る必要があるということです。ほとんどのWebサイトでは、HTMLを書くための独自のパターンを持っています。クローラが書き込まれる前に知っておく必要があります。

出典

2016-10-21 09:33:51

ええ、ちょっとヘッドライン抽出部分だけが必要です –

したがって、htmlの構造は非常に重要です。したがって、ウェブサイトは異なる構造を持っています。それは確かに仕事を尽くす時間です... –

Boilerpipeを使ってHTMLから記事の見出しを抽出する（ボイラパイプを使用）

答えて

関連する問題