2016-04-13 13 views
1

Javaプログラムで次のリンクのデータをクロールしたいとします。 最初のページは問題ありませんが、次のページのデータをクロールする場合は、1ページ目と同じソースコードがあります。 私が必要とする情報は、get要求の応答となるJSONの配列にあります。あなたはthisの画像で設定と応答を見ることができます。JavaがHTTP本体からjsonを読み取る

Thisは、JSONのページのリンクです。

私はGet a JSON object from a HTTP responseのような投稿を見つけましたが、getContent()メソッドを使用すると、HTTPボディ全体ではなくページのコンテンツしか取得できません。
私はgetEntity()メソッドともっと多くのものを試しましたが、それらの中ではうまくいきませんでした。
他のほとんどの投稿は、JSONをソースコードのlike hereに含むページからJSONを読み取ります。
どのように私は完全なJSONまたはより良い配列を得ることができる任意のアイデア?

よろしくお願いします。 種類です。

+0

最後に、Javaアプリケーションの回答が見つかりました。[here](http://stackoverflow.com/questions/36753737/read-full-content-of-a-web-page-in-java)を参照してください。 – nerano

答えて

1

あなたがしようとしていることはわかりませんが、私は理解しようとします。この検索結果のすべての記事pageを取得したいと思いますか? "247 Mitfahrgelegenheiton von Frankfurt nach Muenchen"

このページの単純なHTTP Getを行うことはできません.HTML/CSS/JavaScriptレンダリングエンジン、つまりブラウザまたはブラウザによって解釈および実行される必要があるアクティブなコンテンツがWebサイトに存在するためです開発者キット(WebKitなど)。幸いにもいくつかの言語でこれを行うのに役立ついくつかのツールがあります。最もシンプルなJavaScriptであり、それは、そのページを取得するPhantomJS

あるjavascriptソースファイルでやっように簡単です:もちろん

console.log('Loading a web page'); 
var page = require('webpage').create(); 
var url = 'http://phantomjs.org/'; 
page.open(url, function (status) { 
    //Page is loaded! 
    phantom.exit(); 
}); 

、そこに行うための小さな作品ですが、PhantomJSはたくさん持っていますexamplesどのようにページコンテンツがロードされるのを待つか、javascriptを実行して、実際のブラウザで見るようにページ全体の内容を取得する方法。

+1

答えていただきありがとうございますloretoparisi。あなたは正しいです、私はウェブサイトの完全な内容を読んで、データを使用しようとします。私はPhantomJSを調べ、私の提案に使用しようとします。 – nerano

関連する問題