nutch

    0

    1答えて

    特定の画像拡張子ではない画像が存在する可能性があるという問題があります。たとえば、Nutch2は.ashxで終わるページをクロールしていましたが、まだ画像でした。 HTMLヘッダーフィルタを使用して画像を除外する方法はありますか:content-type: images/*またはそれに相当するが、URLパターンに基づいていないもの(regex-urlfilter.txt)?

    2

    1答えて

    私はhttps://wiki.apache.org/nutch/NutchTutorialに続き、Nutch 1.12をインストールして、Solr 5.5.2と統合しようとしました。私はNutchをチュートリアルで述べた手順に従ってインストールしましたが、以下のコマンドを実行してsolrと統合しようとしていました。それは以下の例外を投げている。 ビン/ Nutchのインデックスhttp://10.

    0

    1答えて

    私は、Apache NutchのでSolrのを使用していますインデックスのウェブサイトへの私のJSONの結果は次のようになります : "response": { "numFound": 0, "start": 0, "docs": [ { "id": "http://mysite.pl/cl-BR/link/link", "url": "http://mysit

    0

    1答えて

    Nutch 2.3.1のクロールされたコンテンツを解析するプラグインを作成する必要があります。私はeclipseをシンプルなエディタより優れていると判断しました。どうすればeclipseでプラグインを作成し、簡単なユースケースでテストできますか?

    1

    1答えて

    Nutch 2.3.1用の簡単なプラグインをこのsiteからいくつかのガイドを使って書きました。今私はそれをテストして、それをNutchに統合する前に正しく動作していることを確かめる必要があります。私が単にjavaコマンドで実行すると、クラスにエラーが見つかりません。どうすれば私のプラグインをテストできますか?

    0

    1答えて

    私はapache nutchを使用して、rosettacodeでクロールを実行しています。私はウェブサイト全体をクロールしたくない、ちょうど選択されたトピック(例えば、http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go)をクロールしたい。しかし、私はク

    -1

    1答えて

    私はApache Nutchの初心者ですので、検索するのに多くの時間を費やしています。 Apache Nutchで各URLの親ページのアンカーを取得する必要があります。 LinkDatum、LinkDB、Inlinkについては各URLのデータを保存していますが、新しいScoringFilter用のプラグインを追加するためにこれらのクラスを使用する方法は正確にはわかりません。 ご協力いただければ幸い

    2

    1答えて

    ちょうどチュートリアルに従ってNutchをNutchWikiから設定しました。 Nutch 2.x srcをダウンロードしてすべての設定を行います。 問題は、クロールを開始したばかりのときに発生します。 bin/nutch inject crawl/crawldb urls私は次のようなエラーメッセージが表示されます:Unrecognized arg urls 私はちょうどチュートリアルのすべての

    1

    1答えて

    hadoopとhbaseでnutchを完全にセットアップしました。コマンドライン(ターミナル)を介してジョブを実行すると正常に動作します。しかし、例外が発生した後、私は同じコマンドをnutch wepappサーバー経由で実行したいとき。 2016-09-07 12:25:31,800 ERROR impl.RemoteCommandExecutor - Remote command failed

    1

    1答えて

    私は、最初の種子がフラットファイルで提供されていることを知っています。しかし、これらのURLはどこに注入されていますか?それはcrawlDBですか?その場合、新しいリンクはクローラによって取得され、crawlDBに保存されますか?システムがシャットダウンしたときに何が起きるのですか?crawlDBは次のナッシュ起動時にリフレッシュされますか? 実際には、システムシャットダウンの場合には、どこで終了