2016-12-16 11 views
0

私はたくさんの行を持っており、2つのタイプに分類できます。単語列の文章と文以外の文章を単語列から分類する方法は?

タイプ:

  1. その有効な英語の文:

    経験: - コミットソフトウェアエンジニアとして、マイクロソフトテクノロジとビジネスインテリジェンス 上 の経験5年以上ツール。

  2. ない有効な英語のセンテンス(単に単語列):
    例:

    • クライアント:PMP自動車部品

    • HTML、カスケーディング・スタイル・シート、Javaスクリプト、JSP

    • 組織:Satyam Computer Services Ltd.、| ? |指定:ソフトウェアエンジニア| ? |再生時間:03/2006 03 /2010 | ? |
    • SLC - 私はtask.iがNLTKによって分類のための機能として、POSタグを使用することができる機械学習のためのpythonを使用しています

2006サティヤムコンピュータサービスリミテッド - STCは、認定に値します。どのアルゴリズムをこの問題に適用できますか?

更新:
文章がないかどうかの予測にはどの機能を使用すべきですか?

答えて

1

あなたはtreetaggerwrapper使用することができます:使いやすいべきであるドキュメントから Reathedocs of TreetaggerWrapper

を:一文に含まは名詞(タグNN)、動詞(タグを保持している場合

import pprint # For proper print of sequences. 
import treetaggerwrapper 
#1) build a TreeTagger wrapper: 
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en') 
#2) tag your text. 
tags = tagger.tag_text("This is a very short text to tag.") 
pprint.pprint(treetaggerwrapper.make_tags(tags)) 

はチェックVBZ )と適切な文の句読点(タグSENT