2016-08-26 1 views
0

私は4dのnumpy配列にsparkデータフレーム、traindfを取得しようとしています。Keras/Theanoのためのpysparkデータフレームを4次元のnumpy配列に再構成する

traindf = sqlContext.createDataFrame([ 
    (1, 1, 2, 3), 
    (1, 2, 2, 3), 
    (1, 3, 2, 3), 
    (1, 4, 2, 3), 
    (2, 4, 5, 6), 
    (2, 4, 5, 6), 
    (3, 7, 8, 9), 
    (2, 4, 5, 6), 
    (3, 7, 8, 9), 
    (3, 7, 8, 9) 
], ("id", "image", "s", "t")) 

values = (traindf.rdd.map(lambda l: [map(lambda r: float(r), l)]).collect()) 
x = np.array(values) 
x = np.array_split(x, x.shape[0]/2) 
x = np.asarray(x) 
x.shape 

この収量を(5、2、1、4)が、それはkerasニーズに表示されます(5、1、2、4):私はこれを試してみました。私はいくつかの方法を試みましたが、正しいフォーマットを得るための良い方法は見当たりません。

提案がありますか?

答えて

0

はちょうどそれを考え出し、エンド

x = np.reshape(x, (5, 1, 2, 4)) 
に、このタック
関連する問題