2009-10-20 26 views
5

私は以下のプレーヤーを持っています。それぞれの値は、与えられたゲームにおける正しい答えの割合の結果に対応しています。信頼できる信頼できるプレーヤーを見つけるためのアルゴリズム

$players = array 
(
    'A' => array(0, 0, 0, 0), 
    'B' => array(50, 50, 0, 0), 
    'C' => array(50, 50, 50, 50), 
    'D' => array(75, 90, 100, 25), 
    'E' => array(50, 50, 50, 50), 
    'F' => array(100, 100, 0, 0), 
    'G' => array(100, 100, 100, 100), 
); 

これまでのところ、私は、次の式を作ってみた、私は最高の選手を拾うことができるようにしたいが、私はまた、プレイヤーが(より少ないエントロピー=より信頼性)がどのように信頼性を考慮に入れたいです:

average - standard_deviation/2 

しかし、これが最適な式であるかどうかはわかりませんが、私はあなたの考えを聞きたいと思います。この結果は、次の今後の投票のために重み付けされるだろう

average - standard_deviation/# of bets 

私はこの問題についてもう少し考えてきたと私は少し異なる式を作ってみた、ここでは、改訂版であります例えば、プレーヤーCからの新しい賭けは、賭けの半分としてカウントされます。

私はここで詳細に行くことができないが、これはWisdom of Crowds theoryDelphi methodに関連プロジェクトであり、私の目標は、次の結果は、いくつかのプレイヤーから過去の賭けに重み付けをできる限り予測することです。

私はすべての感謝を感謝します、ありがとう。

+2

最高のファンタジーフットボールチームを選んでみませんか? :) – Kip

+0

@Kip:そうではないが、近い。 =) –

+1

あなたの(太字の)追加のアイデアを書き直してください。おめでとう、あなたはほぼ平均の標準誤差を再発明しました! average - 2 * stdev/sqrt(numBets)を使用した場合、平均を取り囲む95%信頼区間の下限があります。その価値は、最良の予測変数を選択するには全く不合理な方法ではありません。 – Harlan

答えて

3

まず、データ配列に少数のエントリしかない場合、標準偏差は使用しません。 Median Absolute Deviation(MAD)などのより堅牢な統計測定を使用します。同様に、Averageの代わりにMedianを使用してテストすることもできます。

これは、プレーヤーのベットに関するあなたの知識が少数のサンプルに限定されている場合、あなたのデータは異常値、つまりプレイヤーが幸運である/不運に支配されるためです。統計的手段は、これらの状況下では完全に不適切な場合があり、ヒューリスティックな手法を使用したい場合があります。

私はあなたのリンクから、実際には最高の選手を選ぶつもりはなく、選手の次の回答セットに基づいていると仮定します。 "A"は正しい答えを予測する "C" A "と表示されます。

もちろん、この問題の良い解決策があった場合、株式市場で殺害することができます;-)(誰もしないという事実は、そのような解決策の存在を示すものでなければなりません) 。

しかし、選手のランキングに戻る。あなたの主な問題は、0から100%の間で均等に分配された正しい回答のパーセンテージを取る必要があるということです。テストに複数の質問が含まれている場合は、そうではありません。私は完全にランダムなプレイヤー "R"がテストで得点したものを見て、与えられた実際のプレーヤーが "R"よりどれほど良いか悪いかに基づいて相対的信頼度を構築します。

ゲームの各ラウンドで100万のランダムプレイヤーが生成され、得点の分布を見るとします。このディストリビューションをプレーヤーの実際の得点の重みとして使用します。次に、MADを使用して重み付きスコアを結合し、すでに提案したようにMedian - MAD /いくつかの数値を計算します。

+0

偉大な答えですが、この場合、なぜ標準偏差/平均よりもMAD /中央値を使用する方が良いでしょうか? –

+0

データのn(すなわちデータポイント)が低い場合、標準偏差および平均(平均)自体はあまり信頼性がありません。たとえば、平均の標準偏差(s_m)はs/sqrt(n)です。あなたの例のようにn = 4の場合、平均値自体はデータの50%までしか正確ではありません。このような状況では、MADとMedianはより堅牢です。また、sとmeanを使用すると、時間の経過とともにどのプレイヤーの回答も正規分布にする必要があります。これは、ゲームの設定と人間の意思決定に関するあなたの見解に応じて、そうでないかもしれません。 – Timo

4

Bayesian Probablity Formulaは法案に適合しますか?

だと思います。 http://www.experiment-resources.com/bayesian-probability.html

本質的に、次のラウンドで各プレイヤーが最高になる確率を予測しています。これはベイジアン確率が朝食のために食べるものです。

ベイズ確率はすでにvideo games(警告:.docファイル)で使用されており、このようなものを判別しています。

+0

私はエラーを修正しましたが、統計について話すときには確率=確率を覚えています。 – nlucaroni

+0

私の数学スキルが複雑すぎるようですが、(擬似)コードで私に例を教えてもらえませんか? –

1

...私はあなたが二つの要素の線形結合のいくつかの並べ替えをしたいことを右のかもしれないと思うが、私は、我々はあなたが実際の定数がどうなるか知ってやって何についての詳細を知る必要があると思います
+0

ありがとう、私の更新を確認してください。あなたはもっと多くの情報が必要な場合は、単に言葉を言う。 –

3

Hm。これにより、(100,100,100,60)プレイヤーは(85,85,85,85)プレイヤーよりも格付けが悪くなります。合計ポイントの%を考慮に入れないのはなぜですか?

ようこそ:合計ポイントの合計(例:0..1)に現在の計算を掛けたもの。

+0

ありがとう、私の更新を確認してください。 –

7

何が良いかを定量化していない場合は、最適な数式を得ることができません。あなたは、平均との一貫性をいかに体重測定したいのか把握する必要があります。例えば、1つのオプションは、プレーヤーが与えられたパーセンテージのゲームを打つというスコアを推定することである。これには、選手の得点の確率分布のある種のモデルが必要です。たとえば、プレーヤーの得点が正規分布に従うと仮定すると、与えられた数式は、プレーヤーが時間の約70%を超えるスコアを計算します。

+0

私は何が良いのか分かりません、私は平均で始まりましたが、私は偏差を導入することも良いアイデアかもしれないと思った...私が何をしようとしているのアイデアについて私のアップデートをチェックしてください多分、これは私の質問にもっと多くの洞察をもたらすでしょう。 –

1

さて、 "単純な拡張は、" 重量との境界のちょうど追加された:

平均(プレイヤー) - 分(上部、重量* entrophy(プレーヤー))

しかし、与えられました現在のデータセットでは、ゲームごとのスコアの差を見ているように「正しい答えのパーセンテージ」に関心がないかもしれません。、これはオプションです。

2

中央値を使用したと考えていますか?それは平均よりもrobust statistic(外れ値の影響が少ない)とみなされます。あなたのデータには、0,25,50,82.5,50,50,100のメジアンがあります。

これは直感的に欲しいものですか?私はここに「正しい答え」がないということを他の人たちと同意する。

+0

このような基本的な質問は申し訳ありませんが、どうすればその中央値を判断できますか? –

+1

(Googleはあなたの友人です!)各プレーヤーについて、配列をソートし、奇数の値がある場合は中間のものを選択し、そうでない場合は中間のものの平均を選択します。どの統計ライブラリも中央値関数を持ちます。 – Harlan

1

チェックアウトhttp://blog.stackoverflow.com/2009/10/alternate-sorting-orders/

が投票を並べ替えることですが、あなたが考える場合、スコアは投票に似ているように式(0-何でも)あなたは、より一貫しているどの選手を計算するためにそれを使用することができるはずです高い得点。

関連する問題