2009-06-04 6 views
1

〜7000語程度の大きな文書があるとします。私はすべてのデータをサーバーに送る必要があります。 私はjquery、プロトタイプなどを使用する機会がありません。それはきれいなOOのjavascriptでなければなりません。 サンプルページはjsonのロシア語のページになります 単語からすべてのタグとhtmlマークアップを除外します。 文書DOMツリーのすべての単語をjavascriptで集める

私の質問は、

  • 1.文書からすべての(utf8)単語を収集/収穫するにはどうすればよいですか?
  • 2.結果をJSONデータに変換するにはどうすればよいですか?

  • おかげ

    +0

    ドキュメントは純粋なテキストですか?またはHTMLタグなどがありますか? –

    +0

    そして、どのように言葉を送りたいのですか?各単語は別々に、またはテキスト全体として? –

    +0

    ドキュメントはhtmlドキュメントです。データの送信は、次のようになります。 {"words":["word1"、 "word2"、 "word3"]} –

    答えて

    3

    は、これは本当にオブジェクト指向プログラミングのための仕事のように見えるしていません。セクシーな再帰関数はもっとうまくいくでしょう。

    var output=[]; 
    
    function scan(element) { 
        var children=element.childNodes; 
        for (var child in children){ 
         if (children[child].nodeValue) { 
          output.push(children[child].nodeValue); 
         }else { 
          scan(children[child]); 
         }; 
        }; 
    }; 
    
    scan(window.document.body); 
    

    これは、個々の単語にアップテキストを壊したり、JSONを生成し、それはあなたの個々の単語のリストを与えるものではありません。あなたはまだテキストをクリーンアップする必要があります。 2秒間のテストで、javascriptや改行(\ n)を含むすべてのテキストを表示するのが好きであることがわかりました。たぶん私はそれが気に入ったら、もっとコードを追加します。しかし、これはあなたに行く必要があります。

    JSONに変換するには、Douglas CrockfordのtoSSONコードを試してください。ちょうどそれをGoogle。

    +0

    とても簡単です。コード組織がjsonデータを考慮に入れないそれは質問に適合しません:)とにかくありがとうございます。 –

    +0

    nodevalue!=シングルワード –

    +0

    ありがとうございますlink grandmaster。あなたはフーディーニとして素晴らしい –

    関連する問題