2012-03-14 5 views
0

SQLデータベースから大量の文字列を取り出し、それを個々の単語に分解し、それらを配列に入れてグラフを作成するという目標があります単語は使用する必要がありますが、私はよく使われる単語を削除する手段を見つける必要があります。私は比較するために非常に基本的な単語の配列を作ったが、あまり効果的ではない。私はそれを比較できる辞書ファイルのいくつかの手段ですか?どんなアイディアも素晴らしいだろう。PHPの文字列からよく使われる単語を削除する、MySQL

私は現在、インターンシップで既存の「データ表現アルゴリズム」を編集しており、どこから始めたらいいのか分かりません。それは私が辞書ファイルを使用することが示唆されているが、私はそれを持っていないだけでなく、私はそれを比較する方法を知りません。あなたはin_array機能使用してこれを行うことができます

+0

あなたはより多くのコンテキストを提供するために、これを実行する必要がある理由あなたは説明できますか? –

+0

辞書ファイルを探しているのですか、辞書ファイルと単語を比較する方法はありますか? – dldnh

+0

一般的な単語のリストを設定することができます。 'a'、' the'、 'as'など。簡単ですが、あなたのテキストの話題が何であっても、何回も繰り返すことができます。それでも自分でリストを作成する必要があります。 –

答えて

0

:もちろん

<?php 

$whitelist = array('a', 'the'); 

function whitelisted($var) 
{ 
    global $whitelist; 
    return (!in_array($var, $whitelist)); 
} 

$str = "a lazy fox jumped over the lazy farmer"; 

print_r(array_count_values(array_filter(explode(" ", $str), "whitelisted"))); 
?> 

//produces: 

Array 
(
    [lazy] => 2 
    [fox] => 1 
    [jumped] => 1 
    [over] => 1 
    [farmer] => 1 
) 

を、あなたは、これはあなた自身の範囲で動作するように再配置しなければならない可能性があり(グローバルはおそらく理想的ではない)、それはあなたを取得する必要がありますあなたが数える気にしない一般的な言葉を整理することから始めました。

http://ideone.com/kfNzM

+0

実際には、「ホワイトリスト」は実際には「ブラックリスト」と呼ばれるべきであるため、意味を間違えてしまいます。 – hexparrot

関連する問題