2012-02-17 8 views
1

パターンが文字列であるクラスタリングソフトウェアがあります。 文字列は、最も長い共通部分シーケンスを使用して類似性によってグループ化されます。 このクラスターの2次元プロットを作ることは可能ですか?どのようにしてxy軸上の文字列を表現できますか?は2Dプロットの文字列を表します

私が唯一のアイデアは、例えば、文字列から整数を有するためにASCIIコードを使用することである:R = 114、E = 101 D = 100

これそれの1D becouse 315 = 赤表現!

p.s.ソフトウェアはJavaですが、プロットデータの場合は通常Matlabを使用します

答えて

2

文字列を数値に変換する方法は無限にあります。本質的にはそれは単なる一連のバイトなので、すでに数字です。

質問は、何をしたいですかを参照してください。これらの「コンバージョン」の大部分はすべての場所にあり、実際には多くの意味を伝えません。

私の頭に浮かぶのは、自己組織化マップと多次元スケーリングです。おそらく、類似性データをメソッドに渡して、オブジェクトを2Dマップに配置することができます。

これはおそらく動作して見栄えが良くなりますが、「達成したいものは何か」という質問に実際には答えません。

+0

もし可能であれば、私は2Dのプロットにポイントを見たいと思っています。例: 単語 "誘導"を表すポイントは、単語 "侵入"のポイントの近くにあります。問題は、2次元空間でどのように「誘導」を表現するかです。 – tulkas85

+0

MDSのように、私が上記で示したポインタを見てください。それは距離を保存するためのもので、Levenshtein距離で初期化することができます。 –

関連する問題