nutch

1熱

1答えて

Near Dupliate TextProfileSignatureを使用したドキュメント検出fnv-text-profile-signature

私はすでにテキストに変換された多数のドキュメントを持っています。これらの文書の多くは収穫されたWebページです。これにはApache Tikaが使われています。私は、NDL（Near Duplicates）の検索に使用できるJavaライブラリが必要です。私はこれに関するさまざまなメソッドとドキュメントへのリンクを提供することができますが、この質問は特にTextProfileSignatureの使

1熱

1答えて

Google ChromeのHadoop上でnutch - gloud dataproc

Google Cloud（dataproc）でhadoopを実行しようとすると、以下のエラーが表示されます。私は [email protected]:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.C

2熱

1答えて

NutchとElasticsearchの統合

NutchとElasticsearchのバージョンが連携して、AWS上で垂直検索アプリケーションを作成する方法を知りたいですか？私が500のサイトを開始してクロールを開始し、そこから増加する予定の場合は、一緒に使うのに最適なバージョンは何ですか？私はNutch 1.10とES 1.5をデベロッパーとテストの目的で一緒に使用していますが、私のデータが大きくなるにつれて、より多くのサイトがクロール

2熱

2答えて

Apache Nutchにseed.txtの代わりにmysqlからURLを注入してください。

私はApache Nutchには新しく、mysqlデータベースから動的にURLを挿入したいと思います。 Apache Nutchはこのような可能性を提供していますか？そうでない場合は、私が学ぶことができる同様の実験はありますか？または何か提案？

2熱

1答えて

Nutch Crawledドキュメントのelasticsearchマッピングの問題点

Nutchとelasticsearchをクロール目的で使用しているときに重大な問題に直面しています。私たちのアプリケーションには2つのデータストレージエンジンがあります。のMySQL Elasticsearch は、私は、MySQLのDBのURLのテーブルに格納されている10件のURLを持っているとしましょう。今では、実行時にこれらのURLをテーブルから取得し、これらをシードに書き込んで、クロ

2熱

1答えて

分散環境でnutchサーバーを実行する方法

bin/nutch startserverコマンドを使用してnutchをサーバーモードで起動してテストしました。今、私はnutchを起動することができますか？サーバモードは、（分散環境の）hadoopクラスタの上にあり、nutch REST APIを使用してサーバにクロール要求を提出しますか？助けてください。

2熱

1答えて

Nutchクロールスクリプトのカスタムオプションが機能しない

bin/crawlスクリプトでカスタムオプションを指定しようとしていて、問題が発生しました。私は私のクロールコマンドで外部アウトリンクを無視するのNutchでカスタム設定を与えたように： - ビン/クロール-i -D elastic.index =テスト-D db.ignore.external.links =真のURL/CrawlTest/3 しかし、これは機能しません。次に、このプロパティをn

2熱

2答えて

エラー：mongodbでApache nutchを起動中に

実行しようとすると、エラーが発生します。mongodbは1つの接続を受け付けてログを記録し、すぐに終了します。 $ bin/crawl conf/urls/seeds.txt tuto 1 SOLRURLが指定されていません。インデックス作成をスキップします。シードURLの挿入 /e/apache-nutch/apache-nutch-2.3.1/runtime/local/bin/nutch

2熱

1答えて

分散モードでのnutchサーバーの操作

nutchサーバーが実際に分散環境でどのように動作するか知りたいですか？着信クロール要求にリスナーを使用するか、それとも継続的に稼動するサーバーですか？

3熱

1答えて

Nutch REST APIを使用したNutch弾性インデクサーの不明な問題

RESTエンドポイントを使用してnutchを公開しようとしていて、インデクサー段階で問題が発生しました。私はelasticsearchインデックスライターを使用して、ドキュメントをESに索引付けしています。私は$ NUTCH_HOME/runtime/deploy/bin/nutch startserverコマンドを使用しました。未知の例外のインデックス作成がスローされます。 Error: com