nutch

    0

    1答えて

    私はApache Nutchにはとても新しいです。私の目標は、シードURLのリストから始め、Nutchを使用して、できる限り多くのURL(およびサブURL)を抽出することです(1百万バイト以下または1TB未満)。私はページの内容を必要としない、私はURLを保存する必要があります。これを行う方法はありますか? Nutchは適切なツールですか?

    0

    1答えて

    Hadoop(2.5.2)マルチノードクラスタ(AWS EC2マシン)の上にApache Nutch 2.3.1をインストールしました。 Nutchファイルを適切に設定しました(マスターノード上)。私はseed.txtファイル(urlがクロールされる)をmasterからHdfsファイルシステムに移動しました。今度は、次のコマンドを実行してクロールします。 bin/hadoop jar /home/

    0

    1答えて

    私はNutchのとHBaseのは、このドッキングウィンドウの画像に基づいて作業を取得しようとしています:https://hub.docker.com/r/cogfor/nutch/ 私はURLのファイルを注入しようとする例外取得しています:私は InjectorJob: starting at 2017-12-19 20:49:45 InjectorJob: Injecting urlDir:

    1

    1答えて

    私はメタタグ魔女Nutchからいくつかのメタダを索引付けしようとしています。私はステップバイステップチュートリアルNutch - Parse Metatagsをステップアップしましたが、何も索引付けされていません。 ステップバイステップのチュートリアルのようにプラグインを設定しました。私がクロールプロセスを実行すると、15個の文書がログに索引付けされていることがわかりますが、私が弾力性を見ると見る

    0

    1答えて

    私は同じ問題があります。 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> 私は2.3.1バージョンのNutchと5.2.1バージョンのSolrを使用しています。問題は、このコマンドだ

    0

    1答えて

    私はNutch 1.13を自分のUbuntuにインストールしました。私はスタンドアロンモードでクロールを実行できます。それは正常に実行され、希望の結果を生成するが、私は今どのようにhadoopでそれを実行するか分からない?私はHadoopを擬似分散モードでインストールし、HadoopでNutchのクロールを行い、それを監視したいと考えています。どうしたらいいですか?スタンドアロンモードで実行するた

    0

    1答えて

    Apache Nutch Crawlerの深さの設定方法は?コマンド以下 はクロールが推奨されていませんと言う:私はビン/クロールの代わりにクロールしてみました bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5 。そのために、私はエラーが発生しています: class cannot be loaded : bin.crawl

    0

    2答えて

    Nutchは自分のルールに従って特定のURLを選択します。このステップは、生成時に実行されます。私はパーサ/インデクサプラグインを書く方法を知っています。しかし、生成時にそれを行う方法。私のNutchのバージョンは2.3シリーズです

    0

    1答えて

    Apache Nutch(2.3.1)とmongodb(3.4.7)の新機能です。インスタレーションの手順の後、私はURLを注入し、ウィキペディアのウェブサイトをクロールしたい。私がこのエラーに直面した端末で "./nutch inject urls"を実行すると、 ~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject urls Inject

    0

    1答えて

    Apache Nutchは、WebクローリングのシードURLとしてhttp://rdf.dmoz.org/rdf/content.rdf.u8.gzを推奨しています。しかし、彼らはウェブサイトを閉鎖している。 Webクローリング用の代替シードURLはありますか?