0

テキストコーパスでは、各ドキュメントがおよそ80行である50個のテキストドキュメントがあります。 テンソルフローの入力としてコーパスをフィードしたいのですが、システムが各ドキュメントを読み込むときに各ドキュメントをバッチしたいのですか? TfRecordと同じですが、Tf.Dataを使用してイメージで使用していたものは、私のコーパスの各ドキュメントを順次読み込みます。テキストドキュメントをテンソルフローのテンソルフローに順次変換するための

どうすればこの問題を解決できますか?

答えて

1

あなたはあなたの文書の行が含まれますTextLineDatasetを作成することができます。

dataset = tf.data.TextLineDataset(['doc1.txt', 'doc2.txt', ...]) 

あなたがデータセットを作成した後、あなたはbatch方法とDatasetクラスの他のメソッドを使用してバッチに文字列を分割することができます。

関連する問題