0

英語以外の手書き文字を含むカスタムデータセットを使用したいと思います。手書き文字を分類するKNNアルゴリズムを使用する予定です。MNISTの代わりにカスタムデータセットを使用したトレーニング

ここで私が直面しているいくつかの課題があります。 1.画像のサイズが異なります。 - どのようにしてこの問題を解決するか、Pythonを使用してETLの作業を行うか? 2.文字サイズが同じであると仮定しても、文字間に多くの特徴があり、文字が英語よりも複雑であるため、各画像の潜在的なピクセルはおよそ70 * 70になります。 - これは私のトレーニングとパフォーマンスにどのような影響を及ぼしますか?

答えて

1
  1. 特定のサイズを選択し、すべての画像のサイズを変更します(PILモジュールなど)。

  2. 私は、データの品質と言語そのものに依存すると考えます。手紙が複雑(象形文字のようなもの)の場合は難しくなります。文字が細い線で描画されている場合は、小さな絵でも認識されます。

とにかく、描画された文字があまりにも似ていると、それらを認識することはもちろん困難です。

興味深い考えの1つは、単純にピクセルをトレーニングデータとして使用することではなく、ここで説明するように特殊な機能を作成することです。http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

関連する問題