2017-02-21 5 views
0

私は、ドキュメントソースからテキストドキュメントのセットを取得するために使用しているドキュメントID(keys.csv)のセットを持っています。これらのテキスト文書をすべてコーパスに集めて、さらなる分析(余弦類似性のような)をしたいと思います。テキストファイル(python)を使ってコーパスを作成するには?

私は以下のコードを使用して各テキスト文書をコーパスに追加していますが、これが機能するかどうかはわかりません。これらのテキスト文書を使用してコーパスを作成するより良い方法はありますか?

keys = pandas.read_csv(keys.csv) 
for i in keys: 
    ID = i 
    doc = function_to_get_document(ID) 
    corpus = corpus.append(doc) 
+0

'corpus'は、リストの右にありますか? –

+1

最良の答えは、それをテストし、それがあなたの目的に役立つかどうかを確認することです。さらに、あなたの 'ID'変数は無用です。 –

+0

おそらく 'corpus = [pandas.read_csv(keys.csv)のIDの関数_to_get_document(ID)]'のようなものでしょうか? – jezrael

答えて

1

csvがユニークID使用list comprehension持つ列IDcolを持っている場合、出力はlistです:

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 

サンプル:

print (pd.read_csv('keys.csv')) 
    IDcol 
0  1 
1  2 
2  3 

def function_to_get_document(x): 
    return x + 1 

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 
print (corpus) 
[2, 3, 4] 
関連する問題