2016-08-26 11 views
0

次の操作を実行するデスクトップアプリケーションを作成する必要があります。私はプログラミング言語としてPythonを使用することを考えていますが、他の言語の適切なアプローチやライブラリがあれば、私は切り替えがうれしいです。キャプチャした画像からのスクリーンショットのキャプチャとデータの解析

キャプチャしたいファイルは、特定のワードプロセッサだけが実行できるHWPファイルです。

  1. HWPファイルがMCQフォーマットクイズ

  2. からデータを構文解析含ま

  3. 複数のページ(> 10と< 15)にまたがる場合があり、画像全体HWP文書をキャプチャ質問と回答を分離して別々の画像ファイルとして保存することができます。

は、私は次のPythonライブラリに見えたが、まだ両方の1と3

https://pypi.python.org/pypi/pyscreenshot

任意の助けをいただければ幸い実行する方法を見つけ出すことができないですしています。

答えて

0

正しく取得した場合は、画像からテキストを抽出する必要があります。 これはtesseractのようなOCRを使うべきです。 OCRを使用する前に、画像からノイズを除去してください。 イメージを分割するには、クイズを区別するためのユニークな文字列を追加してください。Q/A

+0

実際には、テキストの抽出は私が探しているものではありません。 画像(質問と回答に対応する画像)を別々に抽出する必要があります。 また、ファイルの形式と内容は変更できるものではないため、質問と回答を区別するために一意の文字列を付けることはできません。 –

+0

あなたは「OCR」を見つけることができるので、私はまだOCRを使用します。 charと質問/回答の番号を入力して一致させます。 OCRはスペースで切り取るのではなく、Q/Aを区別するためのエレガントな方法を提供します。 –

+0

ありがとうございます。 OCRを使用するのは良い考えですが、質問パターン(「?」や通常の質問番号の使用、場合によっては質問としての画像の使用)の一貫性が問題になります。 私は間違いなくTesseractライブラリを使用して調べます –

関連する問題