2016-06-01 5 views
1

svmLightデータ形式での各部分の意味については非常に混乱しています。例えば :svmLightで各項目の意味フォーマット

(ラベル/標的、[(特徴値)、...]、QUERYID)は

ラベルは、データとQUERYIDのランクは、オブジェクトのIDであることを意味していますか?例えば

: 次の項目の:

2 QID:1~1:4.000000 2:2.772589 3:0.266667 4:0.258154 5:37.330565 6:11.431241 7:37.307017 8:1.213630 9:21.342267 10: 10.842279 11:15.634736 12:2.749495 13:-39.467448 14:-37.791635 15:-38.002289 16:14.000000 17:5.634790 18:0.063927 19:0.063290 20:28.303065 21:9.340024 22:24.809801 23:0.231553 24:52.396216 25:1.692954 26 :16.619600 27:2.810583 28:-45.733775 29:-44.612550 30:-44.823263 31:18.000000 32:6.579251 33:0.076923 34:0.076079 35:27.701632 36:9.139690 37:23.819476 38:0.277200 39:67.283604 40:1.847508 41:19.559974 42:2.973485 43:-44.687666 44:-43.467574 45:-43.302044 #docid = 346319

2はオブジェクトのランク/ターゲット値を意味しますか?それではqidやdocidはファイルの意味を教えてください。

ありがとうございました!

答えて

0

先頭の数字は実際にこのオブジェクトの「ターゲット」です。 qid:1部分は、そのようなオブジェクト間のペアワイズ差を制約する際に使用されます。最終#docid、またはむしろすべてが

カーネルに追加情報を渡すために使用することができる情報の文字列(例えば、非特徴ベクトルデータ)

source)です。

各オブジェクトのための一般的なフォーマットは、「使い方」の見出しの下に、公式のソースに与えられている:あなたは

(label/target, [(feature, value), ...], queryid) 

を指定するフォーマットは、pysvmlightのものであることを

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid" 
<value> .=. <float> 
<info> .=. <string> 

注意これは先ほど引用したThorsten JoachimsのSVM-LightサポートベクターマシンライブラリへのPythonバインディングです。 pysvmlightが使用する形式にsvmlightに固有のデータファイルを解析するパーサーを作成する必要があります。 StackOverflowに少なくともone exampleがありますが、qidを考慮していませんが、そのパーサのコードを読むときに追加するのは難しくありません。

+0

ありがとうございました!これは非常に役に立ちます! – Chasinggoal

関連する問題