2017-08-23 7 views
0

次のように線でテキストファイルを考える:各テキスト行がspaceや他の特殊文字を含めることができますフレーズののタブ区切りのシーケンスは、あるword2vecコードを修正して、タブ区切りのフレーズのシーケンスの埋め込みを構築するにはどうすればよいですか?

Phrase foo\tPhrase bla\tPhrase blabla\t... 
Phrase bar\tPhrase blabla\tPhrase blablabla\t... 

。フレーズレベルではなく単語レベルでの埋め込みに興味があります。

現在のword2vec.cは区切り文字として "space"、 "tab"、 "new line"をサポートしています。この場合、 "space"を無効にしてword2vec.cの区切り文字として "tab"と "new line"のみを有効にするには?

私はトーマスMikolov GitHub

答えて

1

https://github.com/tmikolov/word2vec/blob/20c129af10659f7c50e86e3be406df663beff438/word2vec.c#L80word2vec.cに区切り文字を定義する行からword2vec.cを得ました。そのファイルをコンパイルする場合は、その行を編集して&を別の方法で再コンパイルすることができます。

しかし、単純にテキストを事前処理して期待した形式に変換するだけであれば、もっと簡単で堅牢になります(実際には他のword2vec実装を使用している場合)。たとえば、空白' 'をすべてアンダースコア'_'(または元のアンダースコアが区別しておくことが重要な場合は他のプラグ文字)に変更することができます。

後で結果を解釈するときは、ルックアップに同じスペース - アンダースコア変換を適用するか、アンダースコア - スペースを置き換えて結果を表示することで逆にしてください。

関連する問題