Windows 7でPython 2.7でSpark 1.6.1を実行しています。 HDFSのルートスクラッチディレクトリ:/ tmp/hiveは書き込み可能で、現在の権限は次のとおりです:rwxrwxrwx(winutilsツール)。Windows 7のSparkでディレクトリをストリーミングする
ディレクトリからファイルをストリーミングしたい。ドキュメントによると、関数textFileStream(ディレクトリ):
は、新しいファイル用のHadoop互換ファイルシステム を監視し、テキストファイルとしてそれらを読み込む入力ストリームを作成します。同じファイルシステムの 内の別の場所からファイルを「移動」することによって、ファイルを に監視する必要があります。ファイル名はで始まる。無視されます。私はスパークストリーミングコマンドを起動すると
:
lines = ssc.textFileStream(r"C:/tmp/hive/")
counts = lines.flatMap(lambda line: line.split(" "))\
.map(lambda x: (x, 1))\
.reduceByKey(lambda a, b: a+b)
counts.pprint()
ssc.start()
をして、私のディレクトリにストリーミングするためのファイルを作成し、何も起こりません。
は私もこれを試してみました:lines = ssc.textFileStream("/tmp/hive/")
とHDFSパス関連ですが、何が再び起こらない
lines = ssc.textFileStream("hdfs://tmp/hive/")
。
私は間違っていますか?