0

私はAIにとって新しい蜂で、以下の練習をしたい。あなたのpythonを使用して、それを達成するための方法を提案してくださいすることができますカテゴリーPythonでのテキスト分析を使った営業活動

シナリオ - 私のような次のようにいくつかの企業の企業のリストを持っている:

1. AI 
2. Artificial Intelligence 
3. VR 
4. Virtual reality 
5. Mobile application 
6. Desktop softwares 

と以下のようにそれらを分類する:

Technology     ---> Category 
1. AI      ---> Category Artificial Intelligence 
2. Artificial Intelligence ---> Category Artificial Intelligence 
3. VR      ---> Category Virtual Reality 
4. Virtual reality   ---> Category Virtual Reality 
5. Mobile application  ---> Category Application 
6. Desktop softwares  ---> Category Application 

つまり私はAIまたは人工知能のようなテキストを受信したとき、それはAI &アートを特定する必要がありますifational Intelligenceを1つの同じものとして扱い、両方のキーワードをArtificial Intelligenceカテゴリの下に置きます。

ここでは、ルックアップテーブルを使用していますが、ルックアップテーブルを使用する代わりにテクノロジーを分離できるpythonを使用して、上記の入力用の技術/ビジネスにTEXT CLASSIFICATIONを適用したいと考えています。

関連するアプローチを教えてください。

+0

をあなたはどのくらいのデータを上の訓練ができますか?言い換えれば、たくさんのデータがありますか? – Jarad

+0

約1000レコード –

答えて

1

ここでは、sklearnを使用したアプローチの1つです。過去のケースでは、LabelBinarizer()を使用しましたが、X、yを入力として受け入れないため、パイプラインでは機能しません。

初心者であれば、パイプラインはちょっと混乱するかもしれませんが、本質的には、分類器に渡す前に段階的にデータを処理するだけです。ここでは、Xをngramの「マトリックス」(表)の単語と文字のトークンに変換し、それを分類子に渡します。

import numpy as np 
from sklearn.linear_model import LogisticRegression 
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.pipeline import Pipeline, FeatureUnion 

X = np.array([['AI'], 
     ['Artificial Intelligence'], 
     ['VR'], 
     ['Virtual Reality'], 
     ['Mobile application'], 
     ['Desktop softwares']]) 
y = np.array(['Artificial Intelligence', 'Artificial Intelligence', 
     'Virtual Reality', 'Virtual Reality', 'Application', 'Application']) 

pipeline = Pipeline(steps=[ 
    ('union', FeatureUnion([ 
     ('word_vec', CountVectorizer(binary=True, analyzer='word', ngram_range=(1,2))), 
     ('char_vec', CountVectorizer(analyzer='char', ngram_range=(2,5))) 
     ])), 
    ('lreg', LogisticRegression()) 
    ]) 

pipeline.fit(X.ravel(), y) 
print(pipeline.predict(['web application', 'web app', 'dog', 'super intelligence'])) 

は予測する:

['Application' 'Application' 'Virtual Reality' 'Artificial Intelligence'] 
+0

ありがとうJarad。あなたはあなたが何をしたのか理解するのを助けてくれますか? –

関連する問題