Sklearn TfidfVectorizerでピリオドを解析しない方法は？

私はちょうど私のばかげた無知を赦してくれるようにsklearnを拾いました：）...今、私はTfidfVectorizerがどのように機能し、どのようにピリオドで分割するのを避けるかを考えようとしています。Sklearn TfidfVectorizerでピリオドを解析しない方法は？

from sklearn.feature_extraction.text import TfidfVectorizer 

docs= ("'CSC.labtrunk', 'CSC.datacenter', 'CSC.netbu', 'CSC.asr5k.general', 'CSC.ena', 'CSC.embu'", "'CSC.ena'", "'CSC.embu', 'CSC.security', 'CSC.ena'", "'CSC.embu', 'CSC.datacenter', 'CSC.labtrunk', 'CSC.content-security', 'CSC.ena', 'CSC.embu.dev', 'CSC.spv.custom-prods', 'CSC.voice', 'CSC.policy-mgmt', 'CSC.nuova'", "'CSC.embu', 'CSC.sys', 'CSC.policy-mgmt', 'CSC.content-security', 'CSC.datacenter'", "'CSC.asr5k.general'", "'CSC.sys'", "'CSC.labtrunk'")  
    vec = TfidfVectorizer() 
    trfm_data = vec.fit_transform(docs) 
    print trfm_data

出力サンプル：

(0, 6) 0.200552591995 
    (0, 7) 0.200552591995 
    (0, 8) 0.265074737928 
    (0, 0) 0.265074737928 
    (0, 11) 0.316288846342 
    (0, 4) 0.228737749732 
    (0, 9) 0.228737749732 
    (0, 2) 0.757857197424 


    print vec.inverse_transform(trfm_data)

出力サンプル：

[u'embu', u'ena', u'general', u'asr5k', u'netbu', u'datacenter', 
     u'labtrunk', u'csc']

理想的には、私は、文字列のような"'CSC.labtrunk', 'CSC.datacenter', 'CSC.netbu', 'CSC.asr5k.general', 'CSC.ena', 'CSC.embu'"として各項目を治療したいと思います。

出典

2016-09-21 anshanno

正しい規則であるかどうかわかりませんが、文字列のタプルではなく文字列のリストを使用して、目的の出力を得ました。

サンプルデータ：

data = ["'CSC.labtrunk', 'CSC.datacenter', 'CSC.netbu', 'CSC.asr5k.general', 'CSC.ena', 'CSC.embu'", "'CSC.ena'", "'CSC.embu', 'CSC.security', 'CSC.ena'", "'CSC.embu', 'CSC.datacenter', 'CSC.labtrunk', 'CSC.content-security', 'CSC.ena', 'CSC.embu.dev', 'CSC.spv.custom-prods', 'CSC.voice', 'CSC.policy-mgmt', 'CSC.nuova'", "'CSC.embu', 'CSC.sys', 'CSC.policy-mgmt', 'CSC.content-security', 'CSC.datacenter'", "'CSC.asr5k.general'", "'CSC.sys'", "'CSC.labtrunk'"] 

vec = TfidfVectorizer(tokenizer=lambda i: i, lowercase=False) 
trfm_data = vec.fit_transform(data) 
data = trfm_data 
trfm_data data

サンプル出力：

[array(['CSC.embu', 'CSC.ena', 'CSC.asr5k.general', 'CSC.netbu', 
     'CSC.datacenter', 'CSC.labtrunk'], 
     dtype='|S20'), array(['CSC.ena'], 
     dtype='|S20'), array(['CSC.security', 'CSC.embu', 'CSC.ena']

出典

2016-09-21 18:10:31 anshanno

Sklearn TfidfVectorizerでピリオドを解析しない方法は？

答えて

関連する問題