自分のデータに対してNLP(自然言語処理)処理を行っています。データは、PDF/Text/Word/HTMLタイプのファイルの形式です。これらのファイルは、ローカルディスクのネストされたディレクトリ構造に格納されます。SparkでPDF/text/wordファイルを効率的に読む
スタンドアロンのJavaベースのNLPパーサは、入力ファイルを読み込み、これらのファイルからテキストを抽出し、抽出されたテキストに対してNLP処理を実行できます。
JavaベースのNLPパーサーをSparkクラスタで実行するように変換しています。私はSparkがディレクトリから複数のテキストファイルを読み込み、さらに処理するためにRDDに変換できることを知っています。私の入力データは、テキストファイルだけでなく、多数の異なるファイル形式になっています。
私の質問は、Sparkクラスタでこれらのファイルを処理するJavaベースのSparkプログラムの入力ファイル(PDF/Text/Word/HTML)を効率的に読み取るにはどうすればよいですか。