nutch

    1

    1答えて

    私はすでにテキストに変換された多数のドキュメントを持っています。これらの文書の多くは収穫されたWebページです。これにはApache Tikaが使われています。 私は、NDL(Near Duplicates)の検索に使用できるJavaライブラリが必要です。私はこれに関するさまざまなメソッドとドキュメントへのリンクを提供することができますが、この質問は特にTextProfileSignatureの使

    1

    1答えて

    Google Cloud(dataproc)でhadoopを実行しようとすると、以下のエラーが表示されます。私は [email protected]:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.C

    2

    1答えて

    NutchとElasticsearchのバージョンが連携して、AWS上で垂直検索アプリケーションを作成する方法を知りたいですか? 私が500のサイトを開始してクロールを開始し、そこから増加する予定の場合は、一緒に使うのに最適なバージョンは何ですか? 私はNutch 1.10とES 1.5をデベロッパーとテストの目的で一緒に使用していますが、私のデータが大きくなるにつれて、より多くのサイトがクロール

    2

    2答えて

    私はApache Nutchには新しく、mysqlデータベースから動的にURLを挿入したいと思います。 Apache Nutchはこのような可能性を提供していますか?そうでない場合は、私が学ぶことができる同様の実験はありますか?または何か提案?

    2

    1答えて

    Nutchとelasticsearchをクロール目的で使用しているときに重大な問題に直面しています。 私たちのアプリケーションには2つのデータストレージエンジンがあります。 のMySQL Elasticsearch は、私は、MySQLのDBのURLのテーブルに格納されている10件のURLを持っているとしましょう。今では、実行時にこれらのURLをテーブルから取得し、これらをシードに書き込んで、クロ

    2

    1答えて

    bin/nutch startserverコマンドを使用してnutchをサーバーモードで起動してテストしました。今、私はnutchを起動することができますか?サーバモードは、(分散環境の)hadoopクラスタの上にあり、nutch REST APIを使用してサーバにクロール要求を提出しますか? 助けてください。

    2

    1答えて

    bin/crawlスクリプトでカスタムオプションを指定しようとしていて、問題が発生しました。私は私のクロールコマンドで外部アウトリンクを無視するのNutchでカスタム設定を与えたように: - ビン/クロール-i -D elastic.index =テスト-D db.ignore.external.links =真のURL/CrawlTest/3 しかし、これは機能しません。次に、このプロパティをn

    2

    2答えて

    実行しようとすると、エラーが発生します。mongodbは1つの接続を受け付けてログを記録し、すぐに終了します。 $ bin/crawl conf/urls/seeds.txt tuto 1 SOLRURLが指定されていません。インデックス作成をスキップします。 シードURLの挿入 /e/apache-nutch/apache-nutch-2.3.1/runtime/local/bin/nutch

    2

    1答えて

    nutchサーバーが実際に分散環境でどのように動作するか知りたいですか?着信クロール要求にリスナーを使用するか、それとも継続的に稼動するサーバーですか?

    3

    1答えて

    RESTエンドポイントを使用してnutchを公開しようとしていて、インデクサー段階で問題が発生しました。私はelasticsearchインデックスライターを使用して、ドキュメントをESに索引付けしています。私は$ NUTCH_HOME/runtime/deploy/bin/nutch startserverコマンドを使用しました。未知の例外のインデックス作成がスローされます。 Error: com