nutch

    2

    1答えて

    Apache NutchをJavaアプリケーションに使用して、1つ以上のWebサイトからWebページをクロールします。基本的には、ページコンテンツ(テキストなど)を処理するために、Webクローラーが検出したWebページごとにJavaアプリケーションのメソッドを呼び出す必要があります。これを達成する方法は?

    1

    1答えて

    私は、Windows上のApache Nutchのをインストールしていると私はそれが簡単なクロールを実行するために取得しようとしていますが、私は次のエラーを持っている: $ bin/crawl urls crawled 3 Injecting seed URLs /cygdrive/c/Users/Simon/OneDrive/apache-nutch-1.11-bin/apache-nutc

    0

    1答えて

    AIXマシンにApache nutch 1.11バイナリ配布をインストールしています。/usrディレクトリのzipファイル "apache-nutch-1.11-bin.zip"を解凍した後。私はちょうどhttps://wiki.apache.org/nutch/NutchTutorial で指示どおりにビン/ Nutchのコマンドを実行しようとした私は、次の例外を取得しています。bin/Nutc

    0

    1答えて

    Nutch、Hbase、Solrを統合しています。 私はNutchの、HBaseのとSolrのを設定しても、ウェブサイトをクロールするための操作を行ったが、この Integrating Nutch 2.3, HBase and Solrに従うことによって、SolrのでNutchのを統合する一方で、私は /optにコマンド ジャバJAR start.jarを実行しました/solr-4.8.1/exa

    0

    1答えて

    私は休息中のnutchサーバーを持っています。ジョブやすべてを作成できます。 ソルバーに出力するためにNutchサーバーを設定するにはどうすればよいですか?あなただけのNutch(http.agent.name)の必要なパラメータを設定する必要があり、ちょうどあなたがインデックスあなたのコンテンツにしたいことを示している

    0

    1答えて

    ドメインフィルタ設定をジョブごとに動的に変更したいのですが(例えば、シードURLクロールのドメインからのURLのみ)。この場合には(私は達することができない - 事が主な設定のみをサーバー上のファイルを指していることである(私は変更することがありますものを見るためにGET /設定/デフォルトをやっています) ?どのようなプラグインは、コンフィギュレーションは、私はそれらがconfiguraiton

    0

    1答えて

    、無意味な項目の中から意味のあるテキストを区別する、 "投票"など)。 私がクロールしたら、Nutchのは、ストップワード、およびタグからHTMLをきれいに、それは(ウェブサイトのすべてのページにあります)メニューの声を負いません。 だから、あなたがすべてのページが選挙の話を探したときに、そのメニューのため、すべてのページ内の単語「選挙」を持っているので、あなたがウェブサイト全体を検索することがで

    0

    1答えて

    初心者のapache nutch - REST経由で使用するクライアントを作成する。 はすべてのステップ(INJECT、FETCH ...)で成功しました。最後のステップでは、solrにインデックスを作成しようとすると、パラメータを渡すことができません。 リクエスト(私はいくつかのウェブサイトでそれをフォーマットし) { "args": { "batch": "14637431

    2

    1答えて

    solrのインデックス作成時にApacheの「クロール」スクリプトが失敗します。これについて何か考えていますか? IndexingJob: starting SolrIndexerJob: java.lang.RuntimeException: job failed: name=[myId_1]Indexer, jobid=job_local483340309_0001 at org

    0

    1答えて

    このエラーを解決するにはどうすればよいですか? IAMのnutch 1.12、hadoop 2.7.2とsolr 6.0.0を使用し、Nutchのにschema.xml Solrのconfファイルにファイルと、この私のNutchのログエラーをcopyiedしている私はあなたが見ることができるこのURLで、このコマンド bin/nutch solrindex http://localhost:898