フォルダ内のファイルをストリーミングする

私はflumeからkafkaにストリーミングアプリを移しています。
私はkafkaを初めて利用しているので、私は助けが必要です。フォルダ内のファイルをストリーミングする

私は、CSVファイルが特定の場所（D：/ Folderなど）のIOTセンサーによって継続的に生成されているWindowsマシンを持っています。
ハープループクラスタに転送したいです。

1）ログファイルの転送の間にkafkaクラスタ/ブローカが必要ですか、またはWindowsマシンからhadoop Linuxマシンに直接転送できますか？

2）Windowsとhadoop Linuxマシンにkafkaをインストールしてから、自分のCSVファイルをhadoopマシンで作成したkafkaトピックに直接公開できますか？
私はhadoopマシンでコンシューマーを実行しますか？

出典

2017-12-26 Hadooper1988

カフカコンシューマを使用してファイルを取得し、HDFSに配置します。キューにファイルを送信するにはプロデューサが必要で、消費者は自分が望むことを実行する必要があります。

プロデューサはWindowsで実行でき、kafkaクライアントAPIが必要です。

消費者はHDFSで動作しなければなりません。あなたのクラスタにkafkaをインストールし、設定する必要があります...あなたのHadoopディストリビューションに依存します。

出典

2017-12-26 09:09:00

毎日何百万という小さなファイルがフォルダ内に生成されています。そして、私は新しいファイルのためにkafkaでフォルダをスプールしたい。 – Hadooper1988

したがって、カフカコンシューマを使用してファイルを取得し、HDFSに配置します。キューにファイルを送信するにはプロデューサが必要で、消費者は自分が望むことを実行する必要があります。プロデューサはWindowsで実行でき、kafkaクライアントAPIが必要です。コンシューマはHDFSで動作する必要があります。あなたのクラスタにkafkaをインストールし、設定する必要があります...あなたのHadoopディストリビューションに依存します。私の投稿を編集しても、私はあなたの問題をよく理解していませんでした。 –

ありがとうフランク。私はカフカの話題からswipe_recordsというレコードを60秒ごとにHDFSパスにプルする必要があります。私はあなたがすでにそれを実装していると思います。あなたはこれをどのように達成したかについていくつかの洞察力や参考資料を教えていただけますか？ – Hadooper1988

私はあなたがカフカを使用したい場合は、[はい、あなたが実際のクラスタを必要とするログファイルに

を転送する間にカフカクラスタ/ブローカーが必要です。

私はWindowsマシンからhadoop Linuxマシンに直接転送できますか？

確かに。使用水路、スパーク、FLINK、NiFiなどカフカは必要ありません

私はちょうど窓とのHadoop Linuxマシン上でカフカをインストールしてから、私は直接Hadoopのマシン上に作成されたカフカのトピックに私のCSVファイルを公開することができ

プロデューサークライアントにはKafkaをインストールしません。ライブラリをダウンロードしてメッセージを公開するために使用します。 HadoopノードにKafkaをインストールしても構いませんが、実際には独立したハードウェア上にあるべきです。

出典

2018-01-02 06:21:29

ありがとう@ cricket_007 – Hadooper1988

ようこそ投稿の横にあるチェックマークを使用して受け入れて回答してください –

フォルダ内のファイルをストリーミングする

答えて

関連する問題