2016-05-06 3 views
2

私は、コサインの類似性を使って、2つの画像やオーディオがどのように似ているかを測定できることを知っています。コサイン類似度のベクトルを使って画像や音声を表現する方法は?

しかし、イメージをN次元ベクトルとして表現する方法を理解できません。テキスト文書dの場合、それぞれi-thディメンションはt_iという用語を表し、スカラー成分はドキュメント内の頻度を表します。問題は、イメージ(またはオーディオ)ファイルと同じ「マッピング」を理解できないことです。

私の心を壊す唯一の解決策は、M次元のベクトルがあるということです。ここでMは画像のピクセル数です(何百万という次元?これは気違いです!)暗いピクセルは "白を表す最大値であるが、私は強くこのソリューションは使用されていないと思う。私はこれがオーディオファイルのためにどのようにできるのか分かりません。

答えて

1

ヒルベルト曲線... 2D画像を1Dラインにマッピングする空間塗りつぶしカーブ...各ピクセルはピクセル密度の変化をうまく処理する空間パターンで一度だけ訪れる

:強度が記録されている... 得1Dラインは、ソース画像ピクセルのRGB値から同じ手法

use this to compute pixel intensity (Y)を使用して別のソース画像から生成された線との交差積の準備ができてあなたのベクトルであります

Y = 0.2126 * R + 0.7152 * G + 0.0722 * B 

ソース画像の各ピクセルから、Y値を生成し、これを使って1Dベクトルの各位置に画像をヒルバート曲線から生成します。

私たちの画像は16×16だから、私たちのラインには256個の等間隔の点で256個のピクセルが表示されます...画像からオーディオを生成するように選択すると、これらの256個のポイントのそれぞれに正弦波発振器を置き、ポイントのピクセル強度測定(Y)による各オシレータの音量...それと同時に、各オシレータの周波数をライン内の位置によって駆動します...人間の聴覚スペクトルの低周波から高周波数まで(例えば、200Hzから2kHz)の長さラインの...短い時間の間、オーディオを生成することによって時間を導入する...各瞬間に、全体にわたってカーブの高さを加算するオシレータと256で割る(オーディオサンプルをカットする)...このオーディオはソース画像のソニックマッピングです。この変換は可逆です...オーディオで簡単に始まり、画像を生成することもできます。 (Y)の値の1次元ベクトルここ仲介

は、我々は、音声で起動した場合、我々は、画像を生成し、ででき...重要なことに、この技術は、完全に可逆的であるこの考え https://www.youtube.com/watch?v=DuiryHHTrjU

に優れたクリップであるようにそれで、私たちは時間領域からその周波数領域の対応部分にそれを変換する短いオーディオクリップ上の中間体ベクトル... do a Fourier Transform FFTにアクセスします...これは振幅値を持つ周波数のセットをもたらします...それぞれの周波数値はpですutを出力ピクセルを表す中間メーターベクトルの位置に設定します。出力ピクセル強度値は、その周波数のFFT振幅から駆動されます。その後、ヒルベルト曲線を逆に実行して、1Dベクトル線を出力2D画像

+0

申し訳ありませんが、このテクニックは画像​​から音声への翻訳ですが、これは私が尋ねたものではありません。N次元のベクトルを作成する方法を知りたかったのですが画像と、画像の代わりに音源を使って同じことを行う方法 – justHelloWorld

関連する問題