私はflumeからkafkaにストリーミングアプリを移しています。
私はkafkaを初めて利用しているので、私は助けが必要です。フォルダ内のファイルをストリーミングする
私は、CSVファイルが特定の場所(D:/ Folderなど)のIOTセンサーによって継続的に生成されているWindowsマシンを持っています。
ハープループクラスタに転送したいです。
1)ログファイルの転送の間にkafkaクラスタ/ブローカが必要ですか、またはWindowsマシンからhadoop Linuxマシンに直接転送できますか?
2)Windowsとhadoop Linuxマシンにkafkaをインストールしてから、自分のCSVファイルをhadoopマシンで作成したkafkaトピックに直接公開できますか?
私はhadoopマシンでコンシューマーを実行しますか?
毎日何百万という小さなファイルがフォルダ内に生成されています。そして、私は新しいファイルのためにkafkaでフォルダをスプールしたい。 – Hadooper1988
したがって、カフカコンシューマを使用してファイルを取得し、HDFSに配置します。キューにファイルを送信するにはプロデューサが必要で、消費者は自分が望むことを実行する必要があります。 プロデューサはWindowsで実行でき、kafkaクライアントAPIが必要です。 コンシューマはHDFSで動作する必要があります。あなたのクラスタにkafkaをインストールし、設定する必要があります...あなたのHadoopディストリビューションに依存します。 私の投稿を編集しても、私はあなたの問題をよく理解していませんでした。 –
ありがとうフランク。私はカフカの話題からswipe_recordsというレコードを60秒ごとにHDFSパスにプルする必要があります。私はあなたがすでにそれを実装していると思います。あなたはこれをどのように達成したかについていくつかの洞察力や参考資料を教えていただけますか? – Hadooper1988