テキストコーパスからの単語の1つのホットエンコーディング

テンソルフローを使用して、ボキャブサイズのスパースベクトルで表され、その特定の単語のインデックスが1に等しい各単語で、単語のホットエンコーディングを1つ作成するにはどうすればよいですか？テキストコーパスからの単語の1つのホットエンコーディング

何か

等oneHotEncoding（ワード= [ 'A'、 'B'、 'C'、 'D']） - > [[1,0,0,0]、[0,1、 0,0]、[0,0,1,0]、[0,0,0,1]]？

出典

2017-01-06 Shadab Shaikh

を生み出す[ここ]（https://stackoverflow.com/questions/33681517/ tensorflow-one-hot-encoder）は、Tensorflowで1つのホットエンコーディングを使用する方法の説明です – AAA

Scikitsの1つのホットエンコーダは、int配列（http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html）をとります。あなたの例のビルあなたは可能性があり、私たち整数に言葉をマッピングし、そこからどこへ行くの辞書：

import numpy as np 
from sklearn.preprocessing import OneHotEncoder 
wdict = {'a': 0, 'b': 1, 'c': 2, 'd': 3} 
dictarr = np.asarray(wdict.values()).reshape(-1, 1) 
enc = OneHotEncoder() 
enc.fit(dictarr) 
enc.transform([[2]]).toarray()

array([[ 0., 0., 1., 0.]])

出典

2017-11-12 18:37:46 GrimTrigger

テキストコーパスからの単語の1つのホットエンコーディング

答えて

関連する問題