0

私はflumeからkafkaにストリーミングアプリを移しています。
私はkafkaを初めて利用しているので、私は助けが必要です。フォルダ内のファイルをストリーミングする

私は、CSVファイルが特定の場所(D:/ Folderなど)のIOTセンサーによって継続的に生成されているWindowsマシンを持っています。
ハープループクラスタに転送したいです。

1)ログファイルの転送の間にkafkaクラスタ/ブローカが必要ですか、またはWindowsマシンからhadoop Linuxマシンに直接転送できますか?

2)Windowsとhadoop Linuxマシンにkafkaをインストールしてから、自分のCSVファイルをhadoopマシンで作成したkafkaトピックに直接公開できますか?
私はhadoopマシンでコンシューマーを実行しますか?

答えて

0

カフカコンシューマを使用してファイルを取得し、HDFSに配置します。キューにファイルを送信するにはプロデューサが必要で、消費者は自分が望むことを実行する必要があります。

プロデューサはWindowsで実行でき、kafkaクライアントAPIが必要です。

消費者はHDFSで動作しなければなりません。あなたのクラスタにkafkaをインストールし、設定する必要があります...あなたのHadoopディストリビューションに依存します。

+0

毎日何百万という小さなファイルがフォルダ内に生成されています。そして、私は新しいファイルのためにkafkaでフォルダをスプールしたい。 – Hadooper1988

+0

したがって、カフカコンシューマを使用してファイルを取得し、HDFSに配置します。キューにファイルを送信するにはプロデューサが必要で、消費者は自分が望むことを実行する必要があります。 プロデューサはWindowsで実行でき、kafkaクライアントAPIが必要です。 コンシューマはHDFSで動作する必要があります。あなたのクラスタにkafkaをインストールし、設定する必要があります...あなたのHadoopディストリビューションに依存します。 私の投稿を編集しても、私はあなたの問題をよく理解していませんでした。 –

+0

ありがとうフランク。私はカフカの話題からswipe_recordsというレコードを60秒ごとにHDFSパスにプルする必要があります。私はあなたがすでにそれを実装していると思います。あなたはこれをどのように達成したかについていくつかの洞察力や参考資料を教えていただけますか? – Hadooper1988

0

私はあなたがカフカを使用したい場合は、[はい、あなたが実際のクラスタを必要とするログファイルに

を転送する間にカフカクラスタ/ブローカーが必要です。

私はWindowsマシンからhadoop Linuxマシンに直接転送できますか?

確かに。使用水路、スパーク、FLINK、NiFiなどカフカは必要ありません

私はちょうど窓とのHadoop Linuxマシン上でカフカをインストールしてから、私は直接Hadoopのマシン上に作成されたカフカのトピックに私のCSVファイルを公開することができ

プロデューサークライアントにはKafkaをインストールしません。ライブラリをダウンロードしてメッセージを公開するために使用します。 HadoopノードにKafkaをインストールしても構いませんが、実際には独立したハードウェア上にあるべきです。

+0

ありがとう@ cricket_007 – Hadooper1988

+0

ようこそ投稿の横にあるチェックマークを使用して受け入れて回答してください –

関連する問題