2011-10-27 9 views
0

私はこの方法で解決:Javaコードでは、どのようにランダムなhtmlページのテキストを抽出できますか?

String url = ("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/"); 

Document doc = Jsoup.parse(new URL(url), 2000); 

Elements body = doc.select("body"); 

String s=body.text(); 

System.out.println(s); 

私はまだ別の問題を抱えています。私はタイトルのないメインのテキストを欲しいだけです。誰が私を助けられるか?


ウェブサイトからテキストを抽出するアルゴリズムが必要です。私はこのテキストをタグ、クラスなどからきれいにして、このアルゴリズムをどのWebページにも適用したいと考えています。イルタントatteso responsoがsui fabbisogniディパトリモニオデッレ maggiori banche europeeèarrivato -

MILANO:

は、例えばthis page

のために私はメインのテキストを必要とします。 L'Eba(l'Autoritàdi controllo bancaria europea)は2012年に必要とされ、2012年には となり、1人当たり106,5人で30ユーロになります。が重要です。私はメインのテキストを必要とする...............

this page

について隋70 gruppi considerati、invece、IL赤字 patrimonialeèジ160 miliard:

TORINO - Effetto Chrysler sui conti Fiat。 Il Lingotto archivia il テルモトリメストレは17,6ミリアンペア(8,4 nello stesso trimestre 2010)です。 Piùche triplicato l'utile della gestione ordinaria che passa da 256 a 851 milioni。 terzi arrivanoダ デトロイトCHEによる................

おかげ

+0

この宿題ですか? – ewok

+0

あなたはapache http commonsを試すことができます – nidhin

+0

2つのこと:まず自分自身の解決策に着いて受け入れられたとマークした場合は、自己回答を使用してください。第二に、新しい質問がある場合は、新しい質問をしてください。 – Kev

答えて

2

boilerplateライブラリを試してみてください。

もう1つの選択肢は意味のある方法でコンテンツのインデックスを作成するApache Tikaです。

"メインテキスト"の定義はほとんど不可能であることに注意してください。サイトを知っている場合は、テンプレートを理解して何らかの前提を立てることができます。 ランダムのサイトを横断することは難しく、ボイラパイプ/ティカのようなものが出現します。

2

私はちょうどJsoupを発見した、あなたが望むもののために

が、私は専門家ではない、これらの線に沿って何かが「div_Id」

Document doc = Jsoup.connect("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/").get(); 
String text = doc.body().id("div_Id").text() 

からそのテキストを抽出することを思えそれだけで完璧に見えますこのライブラリでは、実際にはより簡単ですhttpCommonsClient

関連する問題