Pythonを使ってMLCompデータセットを読むには？

-1

MLCompデータセットには、私が知らない特殊なファイル形式があります。私はPythonを使用して読みたいが、できない。Pythonを使ってMLCompデータセットを読むには？

2016-07-23 kathi

最初に留意すべき点は、sklearn（v0.17.1、2016年7月24日現在）、のDocumentClassificationドメインのみをサポートしていることです。

たとえば、 /somewhere/on/your/computerに、あなたがデータセットをロードし、分類器を訓練するために、次のsklearnスニペットを使用することができますid=523を持っているWebKB dataset、：

from sklearn.datasets import load_mlcomp 
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.metrics import accuracy_score 
from sklearn.naive_bayes import MultinomialNB 

# Load mlcomp data using sklearn 
train_data = load_mlcomp(name_or_id=523, set_='train', mlcomp_root='/somewhere/on/your/computer') 
test_data = load_mlcomp(name_or_id=523, set_='test', mlcomp_root='/somewhere/on/your/computer') 
# if you had the environment variable `MLCOMP_DATASETS_HOME` set, you wouldn't need to explicitly pass anything to `mlcomp_root` 

# `data` is a standard `Bunch` object, so you can now straightforwardly go on and vectorize the dataset,... 
vec = CountVectorizer(decode_error='replace') 
X_train = vec.fit_transform(train_data.data) 
X_test = vec.transform(test_data.data) 

# ...train a classifier... 
mnb = MultinomialNB() 
mnb.fit(X_train, train_data.target) 

# ...and evaluate it. 
print('Accuracy: {}'.format(accuracy_score(test_data.target, mnb.predict(X_test))))

出典

2016-07-24 14:14:34 tttthomasssss

Pythonを使ってMLCompデータセットを読むには？

答えて

関連する問題