2013-07-24 6 views
5

Googleでは、「用語ベクトルアルゴリズム」を使用して一般的なキーワードを特定できると述べています。私はhttp://en.wikipedia.org/wiki/Vector_space_modelを学んだが、用語 "用語ベクトルアルゴリズム"を理解することはできない。「用語ベクトルアルゴリズム」とは何ですか?

あたかも読者が子供のように、簡単な要約で、非常に簡単な言葉で説明してください。

私は、ベクトルは数学の定義を指していると信じています。量は方向と大きさを持ちます。どのようにキーワードはある方向に動く量を持っているのですか?

http://en.wikipedia.org/wiki/Vector_space_model「各次元は別々の用語に対応します。私はディメンションがカーディナリティに関係していると思いました、それは正しいのですか?アレックス・ホームズ、ページによって実際に本のHadoopから

enter image description here

、12

+0

私は質問をアップアップしましたが、[programmers.se](http://programmers.stackexchange.com)の方が適切だと思います。 –

+1

ウェブページのキーワードなど、すべての用語の集合をTとします。項ベクトルは、N^| T |での疎ベクトルです。 Nは自然数です。用語ベクトルの各成分は、その用語が検索またはウェブページ内に存在するか、またはその用語が検索またはウェブページ内で何回発生するかを示すことができる。 – Paul

答えて

8

それは各ワードは別の寸法を形成することを意味する:

例:(恥知らずhereから採取)

3語のみのモデルの場合、次のようになります。

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1) 
+0

ベクトルはこの場合、ある方向に移動する量を意味しませんか? – davidjhp

+0

@davidjhpいいえ、それは幾何学的な意味でのベクトルではありません。 C++を知っているなら 'std :: vector'と同じ概念です。 – Thomas

0

MapReduceの最も一般的な例は、作業頻度を計算することです。 1を値とするキーとして単語を出力するマップステップと、各単語の数を合計するreduceステップとを含む。したがって、Webページに出現する単語(恐らく重複している)のリストがある場合、そのリストの各単語は1にマップされます。reduceステップは、基本的に、各単語がそのページに何回出現するかをカウントします。これは、ページ、ウェブサイトなどのあらゆる基準で行うことができます。結果として生じるデータは、実質的に用語頻度ベクトルである単語を周波数にマッピングする辞書である。それだけで、各用語は、おそらく用語が言及された回数に応じ、取り付け重量または数値を有することを意味するように

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 } 
0

用語ベクトルが鳴り。

単語ベクトルの幾何学的意味を考えていますが、x、y、zと言っているのではなく、複数の次元x1、x2、 x3 ... xnといくつかの値。従って、項ベクトルの場合、ベクトルは項であり、項term1、項2を項nまでとする。 x、y、zに値があるように、それぞれに値を設定できます。

例として、1は犬、2猫、3匹のライオンであり、それぞれ犬という単語が2回、猫3回、ライオン1という単語を意味する2,3,1の重みを持っています。

関連する問題