クラスタリングタスク用の「重み付きラベル」を使用したマルチラベル分類

この質問は、クラスタリングタスクのマルチラベルマルチクラス分類についてです。 Hereは誰の両方が混乱しないことを確認するには、2つの素敵な定義です：クラスタリングタスク用の「重み付きラベル」を使用したマルチラベル分類

マルチクラス分類つ以上のクラスに分類タスクを意味します。例えば、オレンジ、リンゴまたはナシであり得る果物の画像のセットを分類することができる。マルチクラス分類は、各サンプルが1つの唯一のラベルに割り当てられていることを前提にしています。果物はリンゴかナシのどちらかですが、同時に両方ではありません。

マルチラベル分類は、各サンプルに標的標識のセットを割り当てる。これは、ドキュメントに関連するトピックなど、相互に排他的ではないデータポイントのプロパティを予測するものと考えることができます。テキストは、宗教、政治、財政、教育のいずれかに関連している場合もあるし、同時にない場合もあります。 y = [1,1,0,0]：マルチラベル分類のこの定義から

は、我々は宗教と政治についてですサンプルテキストは、このように見える目標を持っているでしょうので、サンプルはおそらく、複数の真のバイナリラベルを持つことができることを理解することができます。

バイナリラベルを使用する代わりに、確率またはスコアがあった場合はどうなりますか？だから私たちの目標は今の代わりにこのようになります：y = [0.5, 0.4, 0.0, 0.1]ここで確率は合計1です。文書は、50％の宗教、40％の政治、10％の教育です。もちろん、このようなラベリングデータセットは実際には実行可能ではありませんので、別のタスクセット、より正確にはタスクのクラスタリングを見て、これがどのように起こるかを見てみましょう。

クラスタリングタスクの場合、データセット[a,b,c,d,e]とその真のクラスタセットがあります。クラスター化は、クラスがアクションのセットである分類タスクとして見ることができます。アクティブなクラスターとマージするか、新しいクラスターを開始します。これらのクラスタを増分的に構築するシステムを想像してください。当然のことながら、間違いを犯して、インコヒーレントクラスター[ab,c,d]をプロセス中に作ります。次のサンプルeを見ると、実際のクラスタが2つに分割されているため、正確にどのクラスタに追加すべきかを正確に伝えることができません。正しいクラスターの集合を知っているので、各アクション（または潜在的なマージ）に精度またはリコールベースのスコアy = [0.5, 0.3, 0, 0.2]を割り当てることができます（これらの数値は、精度や想起ではなく私の想像力の結果です）。だからここに私たちのラベルは何ですか？これらのクラスターのいずれかとマージするか、eだけを含む新しいクラスターを開始する必要がありますか？

簡単な解決策は、より良い用語がないために私たちの真のラベルまたは潜在的な行動として最高のスコアを取ることであり、通常の分類コスト関数を使用することです。これは、我々の潜在的な行動merge e->abが唯一の真の答えであり、他のすべてが同様に悪いことを意味する。私の意見では、前者が必ずしも間違っているわけではないにもかかわらず、両方の動作merge e->cとmerge e->dが同じようにペナルティを科されるため、これは間違っているようです。

マルチラベル分類に戻ると、1と0の代わりにこのような「重み付きラベル」を可能にするコスト関数はありますか？または私は間違った角度でこれを見ていますか？

出典

2017-02-05 Fabrice Dugas

クラスタリングでは、正しいラベルがありません。あなたがラベルを持っているなら、それは分類です！ –

うん、私は正しい用語を使用していないかもしれません。たとえば、コアレリファレンスの解決には、正しいコアレンスチェーンまたは「クラスタ」があります。私はできるだけ一般的にしようとしました。 –

私は実際にこのトピックに近いPhDで作業しています。出力空間に合理的なクラスタリングアプローチを考えようとしています。今のところ、ネットワーク科学のコミュニティ検出アプローチを使用して空間をクラスタリングしようとしました。私はpaper about data-driven label space divisionのマルチラベル分類でいくつかのヒントを確認できます。私はトレーニングデータからラベルの共起に基づいて重み付けされた重みづけされていないグラフを作成しており、さまざまなコミュニティ検出アルゴリズムを使用して部門を作り、各クラスターで分類して結果をマージします。

重み付きグラフのアプローチは、あなたの質問に幾分関連している - 。ラベルの関係は、彼らがに表示された文書の量で重み付けされているよう

私はまたのpython scikit-multilearnパッケージの一部として、私の実装を提供しています - あなたは新しいクラスタリング手法を実装するのは簡単で、documented hereです。あなたが何かを持って来たら私に教えてください、私は少し助けてくれることを願っています。

出典

2017-02-05 21:59:03 niedakh

クラスタリングタスク用の「重み付きラベル」を使用したマルチラベル分類

答えて

関連する問題