私はHadoop
を新しくしてHadoop
にはどのように多くのタイプのInputFormat
があるのでしょうか?TextInputFormat
?リモートデータサーバーへのHTTP要求を介してファイルを読み取るために使用できる特定のInputFormat
がありますか?HadoopにはいくつのタイプのInputFormatがありますか?
感謝:)
私はHadoop
を新しくしてHadoop
にはどのように多くのタイプのInputFormat
があるのでしょうか?TextInputFormat
?リモートデータサーバーへのHTTP要求を介してファイルを読み取るために使用できる特定のInputFormat
がありますか?HadoopにはいくつのタイプのInputFormatがありますか?
感謝:)
あなたの最初の質問 - などTextInputFormatとしてHadoopの中でどのように多くの種類のInputFormatのがありますか?
TextInputFormat
- 各行は値KeyValueTextInputFormat
として扱われる - デリミタの前に最初の値がキーであり、残りが値FixedLengthInputFormat
ある - 各固定長値が値NLineInputFormat
であると考えられている - N行数は1つの値/レコードとみなされますSequenceFileInputFormat
- バイナリの場合また、DBInputFormat
データベースから読み取ることがあります
2番目の質問 - http要求を介してファイルを読むための入力形式はありません。
CombineFileInputFormat, CombineSequenceFileInputFormat,
CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat,
MultiFileInputFormat, NLineInputFormat, Parser.Node,
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat,
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat
を実装classes
多くがありますがInputformat
のどのタイプを使用するときに、このarticleを見てください。これらのうち
は、最も頻繁に使用されるformats
は以下のとおりです。
FileInputFormat
:すべてのファイルベースのInputFormats KeyValueTextInputFormat
TextInputFormat
:プレーンテキストファイル用のInputFormat。ファイルは行に分割されます。ラインフィードまたはキャリッジリターンのいずれかを使用して、行末を通知します。キーはファイル内の位置であり、値はテキストの行です。NLineInputFormat
:N行の入力を1つの分割として分割するNLineInputFormat。多くの「楽しい」並列アプリケーションでは、各プロセス/マッパーは同じ入力ファイルを処理しますが、計算はさまざまなパラメータによって制御されます。SequenceFileInputFormat
:シーケンスファイルのInputFormat。2番目のクエリについては、最初にファイルをリモートservers
から取得し、ファイルの内容に応じて適切なInputFileFormat
を使用してください。 Hadoop
は、データのローカリティに最適です。
2番目の質問はどうですか?それには解決策はありますか? – Trams