2017-10-11 3 views
0

python依存関係をGoogleクラウドデータフローパイプラインに読み込むことはできますか?私はgensim's phrase modelerを使用して、データを1行ずつ読み込んで、一般的なフレーズ/バイグラム(2つの単語が頻繁に隣に現れる)を自動的に検出します。したがって、パイプラインの最初の実行は、各フレーズをこのフレーズモデラーに渡すことになります。パイプラインを2度目に通過すると、同じフレーズ・モデラーが使用され、このフレーズ・モデラーを各センテンスに適用して、一緒にモデル化すべきフレーズを特定します(「機械」と「学習」がコーパス内で頻繁に隣に現れる場合、代わりに単一の単語 'machine_learning'に変換されます。これはデータフロー内で達成することが可能でしょうか?ビルド/要件ファイルは強制的にワーカーマシン上のpip install gensimに渡すことができますか?Dataflowパイプラインの外部Python依存関係

答えて

1

このページでは、あなたのパイプライン:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies 

例:PyPI上のパッケージの場合、要件ファイルを使用するには、次のコマンドラインオプションを追加します。

--requirements_file requirements.txt

関連する問題