SparkでPDF/text/wordファイルを効率的に読む

自分のデータに対してNLP（自然言語処理）処理を行っています。データは、PDF/Text/Word/HTMLタイプのファイルの形式です。これらのファイルは、ローカルディスクのネストされたディレクトリ構造に格納されます。SparkでPDF/text/wordファイルを効率的に読む

スタンドアロンのJavaベースのNLPパーサは、入力ファイルを読み込み、これらのファイルからテキストを抽出し、抽出されたテキストに対してNLP処理を実行できます。

JavaベースのNLPパーサーをSparkクラスタで実行するように変換しています。私はSparkがディレクトリから複数のテキストファイルを読み込み、さらに処理するためにRDDに変換できることを知っています。私の入力データは、テキストファイルだけでなく、多数の異なるファイル形式になっています。

私の質問は、Sparkクラスタでこれらのファイルを処理するJavaベースのSparkプログラムの入力ファイル（PDF/Text/Word/HTML）を効率的に読み取るにはどうすればよいですか。

2017-05-20 Tariq

ファイルが

sparkContext.binaryFiles()

で読み取ることができる。そして、パーサによって処理することができます。

2017-05-20 15:24:21 pasha701

答えて