0

私は約70k文のコーパスにword2vecモデルを訓練しました。それぞれの文章には、「abc-2011-100」のような一意のキーワードが含まれ、その後にそれを説明する特定の機能が続きます。さて、私はabc idごとに分類しなければなりません。 abc-2011-100はabc_category_1に属しています。 abc-2999-0000はabc_category_20に属します。カテゴリには、複数のabc idが割り当てられます。私は約70000のユニークなabc IDを持っています。この70000のうち、5000はすでに適切に分類されています。今では、すでに分類されている5000 IDの分類精度をチェックしたいと思います。そのためには、トレーニングデータとして80%、正確度をチェックするために20%を取ります。すべてのabc idをd次元のベクトルとして記述できます。この情報を使って、この分類作業を実行するにはどうすればwekaを使用できますか?どんな入力も高く評価してください。wekaを使ってword2vecを分類する

+0

多分、この質問をhttp://stats.stackexchange.comで聞く方が良いでしょう。とにかく、これは標準的な分類作業です。 SVM、ベイジアン分類、ロジスティック回帰など、さまざまな分類手法を使用できます。 – Hossein

答えて

0

hereを参照してください。

まず、あなたのCSV/arffで読む:

import weka.core.Instances; 
import java.io.BufferedReader; 
import java.io.FileReader; 
... 
BufferedReader reader = new BufferedReader(new FileReader("yourData.arff")); 
Instances data = new Instances(reader); 
reader.close(); 
// setting class attribute 
data.setClassIndex(data.numAttributes() - 1); // This is category for you 

その後

import weka.classifiers.trees.J48; 
... 
String[] options = new String[1]; 
options[0] = "-U";   // unpruned tree 
J48 tree = new J48();   // new instance of tree 
tree.setOptions(options);  // set the options 
tree.buildClassifier(data); // build classifier 

ランクロスバリデーション学習者に

import weka.classifiers.Evaluation; 
import java.util.Random; 
... 
Evaluation eval = new Evaluation(data); 
eval.crossValidateModel(tree, data, 10, new Random(1)); 

または実行を評価する分類子をインスタンス化し、訓練別のセットでのトレーニングとテスト

import weka.core.Instances; 
import weka.classifiers.Evaluation; 
import weka.classifiers.trees.J48; 
... 
/* train and test are of type Instances (see above) */ 
// train classifier 
Classifier cls = new J48(); 
cls.buildClassifier(train); 
// evaluate classifier and print some statistics 
Evaluation eval = new Evaluation(train); 
eval.evaluateModel(cls, test); 
System.out.println(eval.toSummaryString("\nResults\n======\n", false)); 
+0

これはGUIで行うことができますか? –

+0

@KshitijGはい。 [ここ](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/)または[ここ](https://www.ibm.com/developerworks/library/os)を参照してください。 -weka1 /)。 – user3658307

関連する問題