私はHadoopにHDFSから画像を読み込むクラスImageInputFormat
を持っています。 InputFormatをSparkで使用するには?Apache SparkでHadoop InputFormatsを使用するには?
は、ここに私のImageInputFormat
次のとおりです。
public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {
@Override
public ImageRecordReader createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException, InterruptedException {
return new ImageRecordReader();
}
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
}
ありがとう〜私はそれを把握今すぐ出てください。代わりに、新しいAPIHadoopFileを使用してjob.Butを実行しますが、これらの画像はすべてhadoopRDDに保存されるか、RDDの容量を設定できます。また、RDDがいっぱいになると残りのデータはディスクに保存されます。データが大きすぎると、パフォーマンスに影響が及ぶでしょうか?入力の500G画像があります。ありがとうございました。 – hequn8128
申し訳ありませんが、私は実際にスパークの専門家ではありません。私は誰かがそれに答えることを願っています。 –