私は、hadoopファイルシステムに保存されている行指向ファイルから補足情報にアクセスする必要のある、ハープ・ストリーミング・ジョブでCPythonを使用したいと考えています。 「補足」とは、このファイルがstdinを介して配信される情報に加えられていることを意味します。補足ファイルは十分に大きく、私はそれをメモリにスラップして行末の文字を解析することはできません。このファイルを一度に1行ずつ処理するための特にエレガントな方法(またはライブラリ)がありますか?CPython内からのhdfsファイルのデータを(stdinを使わずに)一度に処理する最も良い方法は?
おかげで、
のsetjmp
ドキュメントへのリンクを変更し、私の答えを少し更新しました。私は古いバージョンのドキュメントを参照していました。今は最新の状態になっているはずです。 –