2016-05-31 4 views
1

を使用してデータフレームを検索します。 |私はapacheの火花で2つのデータフレームを持っている別のデータフレームまたはRDD

DF 1は、データが

show_noのように見える...ショーの番号と説明があります説明書
a |これはマイキー
b |ここにドナルドが来る
c |メアリーとジョージは家に帰る
d |私はショーを検索する必要がメアリーとジョージは町

に来て、第二のデータフレームは
ドナルドに
メアリー
ミニー

を文字

文字
ジョージがありますどのキャラクターがどんなキャラクターを表示しているかを知るための説明を...

| 10

最終出力は

文字のようになります。表示文字列
george | c、d
donald | b
mary | cd
minnie |ノーショー

これらのデータセットは、不自然かつ簡単ではないが、それは私が実装しようとしている検索機能を表現します。基本的には、別のデータフレームの値を使って1データフレームのテキストを検索する必要があります。これは、SQL Serverの内部UDFで行うのは簡単だろう

、私はショーDESCRIPを通じて基本的にループするたびに、説明で検索「が含まれている」を使用していないショーを返します。

私が持っている問題は、私は、データフレームを使用して、これを行う方法がわからなかったということです。

答えて

0

1)私はshow_noが説明内の各単語にマッピングされているように、あなたは内訳を最初のデータセットを進めるべきだと思います。例えば、最初の行のために が必要な場合は、このからストップワードをフィルタリングすることができます)

show_no | descrip 
a | this 
a | is 
a | mikey 

2のように分けることができます。

3)この後、 "文字"と結合して、最終的な出力を得ることができます。

これが役に立ちます。 Amit

関連する問題