2017-05-20 4 views
0

自分のデータに対してNLP(自然言語処理)処理を行っています。データは、PDF/Text/Word/HTMLタイプのファイルの形式です。これらのファイルは、ローカルディスクのネストされたディレクトリ構造に格納されます。SparkでPDF/text/wordファイルを効率的に読む

スタンドアロンのJavaベースのNLPパーサは、入力ファイルを読み込み、これらのファイルからテキストを抽出し、抽出されたテキストに対してNLP処理を実行できます。

JavaベースのNLPパーサーをSparkクラスタで実行するように変換しています。私はSparkがディレクトリから複数のテキストファイルを読み込み、さらに処理するためにRDDに変換できることを知っています。私の入力データは、テキストファイルだけでなく、多数の異なるファイル形式になっています。

私の質問は、Sparkクラスタでこれらのファイルを処理するJavaベースのSparkプログラムの入力ファイル(PDF/Text/Word/HTML)を効率的に読み取るにはどうすればよいですか。

答えて

0

ファイルが

sparkContext.binaryFiles() 

で読み取ることができる。そして、パーサによって処理することができます。

関連する問題