2017-01-16 6 views
1

訓練された文脈的な強盗モデルが与えられた場合、テストサンプルの予測ベクトルをどのように取り出すことができますか?例えばVowpal Wabbit - テストサンプルの文脈的なモデルから予測確率を得る方法

は、のは、私が

1:-1:0.3 | a b c # <action:cost:probability | features> 
2:2:0.3 | a d d 
3:-1:0.3 | a b e 
.... 

以下のようにフォーマットされた行を含む「train.dat」という名前の列車のセットを持っていると私は、コマンドの下に実行しましょう。

vw -d train.dat --cb 30 -f cb.model --save_resume 

これは、ファイル 'cb.model'を生成します。今、私はこれらの確率の解釈は、アクション1は20%を選んすべき点だろう

0.2 0.7 0.1 

以下のように確率を見てみたいと思いますのは、私が

| a d d 
| a b e 

以下のようにテストデータセットを持っているとしましょう時間、行動2〜70%、および行動3〜10%である。

このような方法がありますか?

+1

私は '--cb'を使用していないので、これに対する答えは分かりませんが、githubのvowpal-wabbitソースツリーには、' test/RunTests'にいくつかの '--cb'の例がありますあなたがそこから始めるべきでしょうか?私がよく使うもう1つのトリックは、 '-a'(別名' --audit')です。このオプションは、 'vw'が実行されるときのstderrの機能の重みを出力します。これにより、リアルタイムでモデルを詳細に把握することができます。 HTH。 – arielf

+0

@arielfいつものようにあなたの返信ありがとう!私は--auditオプションをチェックアウトします。関連するテストはTest#121のように見えました。予測には-pフラグを指定して "--cb_explore k"を使用しますが、正確な予測は何か分かりません。より正確には、予測が「k」アクションのそれぞれについての確率、または各「k」ポリシーに対する確率を表すかどうかはわかりません。 –

答えて

0

"--cb K"を使用すると、予測は静的ポリシーであるargmaxポリシーに基づく最適なアーム/アクションになります。

「--cb_explore K」を使用すると、予測出力には各アーム/アクションの確率が含まれます。選択したポリシーに応じて、確率は異なって計算されます。

関連する問題