この質問は、クラスタリングタスクのマルチラベルマルチクラス分類についてです。 Hereは誰の両方が混乱しないことを確認するには、2つの素敵な定義です:クラスタリングタスク用の「重み付きラベル」を使用したマルチラベル分類
は、我々は宗教と政治についてですサンプルテキストは、このように見える目標を持っているでしょうので、サンプルはおそらく、複数の真のバイナリラベルを持つことができることを理解することができます。マルチクラス分類つ以上のクラスに分類タスクを意味します。例えば、オレンジ、リンゴまたはナシであり得る果物の画像のセットを分類することができる。マルチクラス分類は、各サンプルが1つの唯一のラベルに割り当てられていることを前提にしています。果物はリンゴかナシのどちらかですが、同時に両方ではありません。
マルチラベル分類は、各サンプルに標的標識のセットを割り当てる。これは、ドキュメントに関連するトピックなど、相互に排他的ではないデータポイントのプロパティを予測するものと考えることができます。テキストは、宗教、政治、財政、教育のいずれかに関連している場合もあるし、同時にない場合もあります。
y = [1,1,0,0]
:マルチラベル分類のこの定義から
バイナリラベルを使用する代わりに、確率またはスコアがあった場合はどうなりますか?だから私たちの目標は今の代わりにこのようになります:y = [0.5, 0.4, 0.0, 0.1]
ここで確率は合計1です。文書は、50%の宗教、40%の政治、10%の教育です。もちろん、このようなラベリングデータセットは実際には実行可能ではありませんので、別のタスクセット、より正確にはタスクのクラスタリングを見て、これがどのように起こるかを見てみましょう。
クラスタリングタスクの場合、データセット[a,b,c,d,e]
とその真のクラスタセットがあります。クラスター化は、クラスがアクションのセットである分類タスクとして見ることができます。アクティブなクラスターとマージするか、新しいクラスターを開始します。これらのクラスタを増分的に構築するシステムを想像してください。当然のことながら、間違いを犯して、インコヒーレントクラスター[ab,c,d]
をプロセス中に作ります。次のサンプルe
を見ると、実際のクラスタが2つに分割されているため、正確にどのクラスタに追加すべきかを正確に伝えることができません。正しいクラスターの集合を知っているので、各アクション(または潜在的なマージ)に精度またはリコールベースのスコアy = [0.5, 0.3, 0, 0.2]
を割り当てることができます(これらの数値は、精度や想起ではなく私の想像力の結果です)。だからここに私たちのラベルは何ですか?これらのクラスターのいずれかとマージするか、e
だけを含む新しいクラスターを開始する必要がありますか?
簡単な解決策は、より良い用語がないために私たちの真のラベルまたは潜在的な行動として最高のスコアを取ることであり、通常の分類コスト関数を使用することです。これは、我々の潜在的な行動merge e->ab
が唯一の真の答えであり、他のすべてが同様に悪いことを意味する。私の意見では、前者が必ずしも間違っているわけではないにもかかわらず、両方の動作merge e->c
とmerge e->d
が同じようにペナルティを科されるため、これは間違っているようです。
マルチラベル分類に戻ると、1と0の代わりにこのような「重み付きラベル」を可能にするコスト関数はありますか?または私は間違った角度でこれを見ていますか?
クラスタリングでは、正しいラベルがありません。あなたがラベルを持っているなら、それは分類です! –
うん、私は正しい用語を使用していないかもしれません。たとえば、コアレリファレンスの解決には、正しいコアレンスチェーンまたは「クラスタ」があります。私はできるだけ一般的にしようとしました。 –