2017-09-15 2 views
0

私は遠隔地にフォルダを持ち、他のいくつかのプロセスはファイルをそこに置いています。kafkaを使用して新しいファイルをリモートディレクトリにポーリングする方法

新しいファイルをそれぞれダウンロードして処理するアプリケーションを作成しています。

今のところ私は最後の1時間で作成されたファイルrsyncをダウンロードして処理しています。

しかし、新しいファイルの名前をキューに入れたいというソリューションが必要です。次に、消費者がキューから名前を取得し、ファイルをダウンロードして処理します。

このソリューションでは、カフカのキューでのみポーリングする複数のプロデューサを実行できます。

答えて

2

あなたはKafka Connectを使用したことがありますか?あなたが必要とするものを正確に行うコネクターがあります:新しいファイルのためのディレクトリを監視し、Kafkaにレコードで直接コンテンツレコードを入れます。例:https://github.com/jcustenborder/kafka-connect-spooldir

または新しい/変更されたファイルのみを置く簡単なコネクタメタデータ:https://github.com/DataReply/kafka-connect-directory-source

関連する問題