nutch

0熱

1答えて

Apache Nutch：ウェブ全体からのコンテンツではなくURLのリストを取得します。

私はApache Nutchにはとても新しいです。私の目標は、シードURLのリストから始め、Nutchを使用して、できる限り多くのURL（およびサブURL）を抽出することです（1百万バイト以下または1TB未満）。私はページの内容を必要としない、私はURLを保存する必要があります。これを行う方法はありますか？ Nutchは適切なツールですか？

0熱

1答えて

Apache Nutchでクロール中のエラー

Hadoop（2.5.2）マルチノードクラスタ（AWS EC2マシン）の上にApache Nutch 2.3.1をインストールしました。 Nutchファイルを適切に設定しました（マスターノード上）。私はseed.txtファイル（urlがクロールされる）をmasterからHdfsファイルシステムに移動しました。今度は、次のコマンドを実行してクロールします。 bin/hadoop jar /home/

0熱

1答えて

のNutchとHBaseの設定エラー

私はNutchのとHBaseのは、このドッキングウィンドウの画像に基づいて作業を取得しようとしています：https://hub.docker.com/r/cogfor/nutch/ 私はURLのファイルを注入しようとする例外取得しています：私は InjectorJob: starting at 2017-12-19 20:49:45 InjectorJob: Injecting urlDir:

1熱

1答えて

Nutch index-metadata not indexing

私はメタタグ魔女Nutchからいくつかのメタダを索引付けしようとしています。私はステップバイステップチュートリアルNutch - Parse Metatagsをステップアップしましたが、何も索引付けされていません。ステップバイステップのチュートリアルのようにプラグインを設定しました。私がクロールプロセスを実行すると、15個の文書がログに索引付けされていることがわかりますが、私が弾力性を見ると見る

0熱

1答えて

Nutchx2のラウンド数の使い方

私は同じ問題があります。 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> 私は2.3.1バージョンのNutchと5.2.1バージョンのSolrを使用しています。問題は、このコマンドだ

0熱

1答えて

擬似分散モードでインストールされたHadoopでNutchを実行する方法

私はNutch 1.13を自分のUbuntuにインストールしました。私はスタンドアロンモードでクロールを実行できます。それは正常に実行され、希望の結果を生成するが、私は今どのようにhadoopでそれを実行するか分からない？私はHadoopを擬似分散モードでインストールし、HadoopでNutchのクロールを行い、それを監視したいと考えています。どうしたらいいですか？スタンドアロンモードで実行するた

0熱

1答えて

Apache Nutch Crawlerの設定深度

Apache Nutch Crawlerの深さの設定方法は？コマンド以下はクロールが推奨されていませんと言う：私はビン/クロールの代わりにクロールしてみました bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5 。そのために、私はエラーが発生しています： class cannot be loaded : bin.crawl

0熱

2答えて

Apache Nutch 2.3をカスタマイズする方法

Nutchは自分のルールに従って特定のURLを選択します。このステップは、生成時に実行されます。私はパーサ/インデクサプラグインを書く方法を知っています。しかし、生成時にそれを行う方法。私のNutchのバージョンは2.3シリーズです

0熱

1答えて

Apache Nutch注入URL

Apache Nutch（2.3.1）とmongodb（3.4.7）の新機能です。インスタレーションの手順の後、私はURLを注入し、ウィキペディアのウェブサイトをクロールしたい。私がこのエラーに直面した端末で "./nutch inject urls"を実行すると、 ~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject urls Inject

0熱

1答えて

Apache Nutch Web CrawlingのシードURL

Apache Nutchは、WebクローリングのシードURLとしてhttp://rdf.dmoz.org/rdf/content.rdf.u8.gzを推奨しています。しかし、彼らはウェブサイトを閉鎖している。 Webクローリング用の代替シードURLはありますか？