2016-10-21 19 views
0

ボイラパイプでは、ウェブページから記事のテキストだけを抽出して、HTMLのすべてを整理することができます。しかし、どのように記事の見出しを抽出することができますか?ページのタイトルを使用する方法がありますが、間違っていて不要な単語が含まれています(例: "title - sitename")。Boilerpipeを使ってHTMLから記事の見出しを抽出する(ボイラパイプを使用)

もう1つのアイデアは、<h1></h1>の間のテキストを見つけることですが、私はまだ解決策をいくつか質問します。

答えて

0

ウェブクローラを作成していますか?難しい点は、タイトルがHTML全体のどこにあるのかを知る必要があるということです。 ほとんどのWebサイトでは、HTMLを書くための独自のパターンを持っています。クローラが書き込まれる前に知っておく必要があります。

+0

ええ、ちょっとヘッドライン抽出部分だけが必要です –

+0

したがって、htmlの構造は非常に重要です。したがって、ウェブサイトは異なる構造を持っています。それは確かに仕事を尽くす時間です... –

関連する問題