次のように線でテキストファイルを考える:各テキスト行がspace
や他の特殊文字を含めることができますフレーズののタブ区切りのシーケンスは、あるword2vecコードを修正して、タブ区切りのフレーズのシーケンスの埋め込みを構築するにはどうすればよいですか?
Phrase foo\tPhrase bla\tPhrase blabla\t...
Phrase bar\tPhrase blabla\tPhrase blablabla\t...
。フレーズレベルではなく単語レベルでの埋め込みに興味があります。
現在のword2vec.cは区切り文字として "space"、 "tab"、 "new line"をサポートしています。この場合、 "space"を無効にしてword2vec.cの区切り文字として "tab"と "new line"のみを有効にするには?
私はトーマスMikolov GitHub