まず、これは重複した質問ではありません。彼らの誰も私の問題を解決しませんでした。私はindiegala.comからのプレゼントを手に入れようとしていますが、このサイトにはボットやロボットを防ぐための何らかの保護手段があります。私の目的は違法ではありません、私はちょうど彼らがスチーム・トレード・カードを持っているかどうかを確認してからゲームをチェックします。しかし、知っているように、インディガラは私にロボットのインデックスを与えます。現在私はそのコードを使用しています。Javaのjsoup htmlの解析ロボットのインデックス/ロボットの検出、noindex
String url = "https://www.indiegala.com/giveaways";
try {
String content = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36").ignoreHttpErrors(true).followRedirects(true).get().html();
System.out.println(content);
} catch (IOException ex) {
System.out.println(ex.toString());
}
出力(私のコード、変数「コンテンツ」でサイトのソースを、)を確認するには、あなたは私が与えたコードを実行することができ、それは少し長いので、私はここに出力を追加することはできません。しかしそれはそのように見える。
<head>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
</head>
どうすればこの保護を通過できますか?私のプログラムは人間のようにこの保護を通過するふりをすることができますか?
私はこのコードを試してみると、「403 HTTPエラーフェッチURL:ステータス= 403」が表示されます。次にignoreHttpErrors(true)を追加しようとしました。コードはエラーなく動作しますが、まだ私にはロボットのインデックスがあります:/私は自分のクッキーが必要だと思います:)しかし、私は自分自身のためにどれを得ることができるか分かりません:) –