2016-12-16 15 views
0

私は1次元配列を持っていますので、私のデータセットのカテゴリ的な特徴を以下のように格納しています。(各データインスタンスは多くのカテゴリに属し、コンマ)1つのホットエンコーディング - 1dの配列に格納されたデータ

Administration Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/therapeutic use ,Circadian Rhythm/physiology ,Cross-Over Studies ,Delayed-Action Preparations ,Dose-Response Relationship Drug ,Drug Administration Schedule ,Female ,Humans ,Mandelic Acids/adverse effects/blood/*pharmacokinetics/therapeutic use ,Metabolic Clearance Rate ,Middle Aged ,Urinary Incontinence/drug therapy ,Xerostomia/chemically induced , 

Adult ,Anti-Ulcer Agents/metabolism ,Antihypertensive Agents/metabolism ,Benzhydryl Compounds/administration & dosage/blood/*pharmacology ,Caffeine/*metabolism ,Central Nervous System Stimulants/metabolism ,Cresols/administration & dosage/blood/*pharmacology ,Cross-Over Studies ,Cytochromes/*pharmacology ,Debrisoquin/*metabolism ,Drug Interactions ,Humans ,Male ,Muscarinic Antagonists/pharmacology ,Omeprazole/*metabolism ,*Phenylpropanolamine ,Polymorphism Genetic ,Tolterodine Tartrate ,Urinary Bladder Diseases/drug therapy , 
... 
... 

この配列の各要素は、データインスタンスが属するカテゴリを表します。ワンホットエンコーディングを使用する必要があるので、これらをアルゴリズムとして使用することができます。私はこれがscrikit-learnを使って実現できると理解していますが、実装する方法がわかりません。 (約150の可能なカテゴリと約1,000のデータインスタンスがあります)

答えて

1

私はこのためにパンダでget_dummiesメソッドを使用することをお勧めします。特に、既にデータを保存するためにパンダを使用している場合は、インターフェイスが少し上手くなります。 Sklearnの実装はもう少し複雑です。 Sklearnルートに行くことに決めたら、OneHotEncoderまたはLabelBinarizerを使う必要があります。どちらの場合も、まずカテゴリを整数値に変換してからLabelEncoderで達成する必要があります。

関連する問題