nutch

    1

    2答えて

    Apache Nutch 1.12とApache Solr 6.2.1を使用してインターネット上のデータをクロールし、それらのインデックスを作成するとエラーが発生します:java.lang.Exception :java.lang.IllegalStateException:https://wiki.apache.org/nutch/NutchTutorial Nutchののコピーのschema.

    0

    2答えて

    良い精度を得るためにいくつかのWebページを使用してNLPモデルを訓練したいと思います。 私はWebページを持っていないので、Amazon EMRでWebクローラーを使用することを検討しています。 私は、robots.txtルールを尊重した、拡張性のある拡張性の高いオープンソースソリューションを使いたいと思っています。いくつかの研究の後、私はApache Nutchを採用することに決めました。 N

    0

    1答えて

    深さ3のNutchクローラーを実装しました。次に、私がcassandraにデータをフェッチするとき、私はURLとそのデータを持つテーブルを持っています特定のURL。したがって、この深さクロールされたURLがseed.txtで更新され、クロールされたネイティブURLへのパスをトレースする方法はあります。

    2

    2答えて

    私はNutch 1.12をElastic Searchで使用していますので、フィールドを動的にNutchDocumentに追加したいと思います。 現在、静的なフィールド値をNutchDocumentに追加し、それを弾性検索にインデックスすることができます。私はNutchDocumentを、解析後に作成されていることを考える public class CustomIndexFilter implem

    2

    2答えて

    Nutchを使用して一部のWebサイトをクロールしていますが、正確には私はthis siteをクロールしています。 私はthese five segmentsを見つけました(見つかったすべての文書(約10,000文書))。今度は、の内容をなしでreadsegコマンドを使用して処理します。これは、セグメントをプレーンテキストにダンプしないことです。 このため、各セグメントのサブディレクトリconte

    1

    1答えて

    私は、Nutch schema.xmlからコピーされた、schema.xml(簡略化のためのフィールドだけを示しています)を持つバックエンドSolrサーバーから、Spring Data Solrを検索しようとしています。ここで例えば、春データのSolrのドキュメントを見て、今 ... <fields> <!--APPARENTLY THE ONLY FIELD WHICH IS R

    0

    1答えて

    Nutch 1.4/Solr 4.10を実行して、多数のサイトのインデックスを作成しています。私のクロールには数百のリンクを持ついくつかのシードページが含まれています。現在実行中です -topN 400 -depth 20 これらの設定では、クロールを完了するのに5〜7時間かかります。 "nutch crawl"の個々の反復には時間がかかりませんが、すべてのページが最終的にクロールされるように

    1

    1答えて

    ワールドワイドウェブをクロールすると、クローラにURLの初期のシードリストを与えたいと思っています。 私はこのようなオプションをApach Nutchで見ています(のtopNパラメータを参照)。そのようなオプションはStorm Crawlerにもありますか?

    2

    2答えて

    Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができ ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment しかし、どのように: ./bin/nutch dump -segment crawl/segments/ -o outputDir na

    0

    1答えて

    初めてnutchをインストールしました。インストールとセットアップはとてもスムーズでした。私はWindows 7でそれを実行している。私は、Nutchのインストールのためのクラスパスを設定します。下のエラー(メインクラスがありません)を見た後、しばらくの間、セットアップを苦労しました。 C:\Users\Public\PublicApps\apache-nutch-1.12>nutch.bat c