0
私は4dのnumpy配列にsparkデータフレーム、traindfを取得しようとしています。Keras/Theanoのためのpysparkデータフレームを4次元のnumpy配列に再構成する
traindf = sqlContext.createDataFrame([
(1, 1, 2, 3),
(1, 2, 2, 3),
(1, 3, 2, 3),
(1, 4, 2, 3),
(2, 4, 5, 6),
(2, 4, 5, 6),
(3, 7, 8, 9),
(2, 4, 5, 6),
(3, 7, 8, 9),
(3, 7, 8, 9)
], ("id", "image", "s", "t"))
values = (traindf.rdd.map(lambda l: [map(lambda r: float(r), l)]).collect())
x = np.array(values)
x = np.array_split(x, x.shape[0]/2)
x = np.asarray(x)
x.shape
この収量を(5、2、1、4)が、それはkerasニーズに表示されます(5、1、2、4):私はこれを試してみました。私はいくつかの方法を試みましたが、正しいフォーマットを得るための良い方法は見当たりません。
提案がありますか?