2013-10-03 10 views
7

StataとHadoopを使っている人はいますか? Stata 13には今度はJava Plugin APIがあるので、素敵なプレイをするのは簡単なことだと思います。HadoopとStata

特に私は、ウェブログデータを解析して統計分析に適した形式にすることに興味があります。

この質問は最近on Statalistに届きましたが、回答がありませんでしたので、この技術を体験したほうが視聴者の方が多いと思います。

+0

を助け、私は、少し不公平な比較を見つけます。私自身の推測では、答えは「いいえ」なので答えが得られないということです。 –

+0

@Nick Cox私は侮辱を意味しませんでした。私はStatalistとそのメンバーに多大な敬意を払っています。私は厄介な表現を変えます。 –

+0

うれしくありがとう。 –

答えて

1

のDimitry、

私はELKスタック(http://www.elastic.co)を使用して、このような何かをするために容易になるだろうと思います。 Logstash(中間層)には、ログデータを整理し、整形するためのApache Luceneエンジンに構築されたいくつかのパーサー/トークナイザ/解析があり、結果データをelasticsearchにプッシュすることができます。 insheetjsonを使い、HTTP GETリクエストをURLとして渡してください。大きな問題はなくStataにインポートする必要があります)。

私はStataの中でより堅牢なJSON I/O機能を構築するためにJackson JSONライブラリを使用するプログラムを共同で開発しようとしてきましたが、他の人と仕事をしてもらうことは間違いありません。よく意味が

希望、これは長時間Statalistの重鎮として、 ビリー

0

私は(これ?)教育されたスタブを取るでしょう。 Java APIの外観から、呼び出し元はStataを基本的にデータストアとして扱っているようです。その場合、Stataがデータベースとしてhadoopの世界に適合し、独自のInputFormatとOutputFormatによってアクセスされると思います。あなたの特定のケースでは、私はあなたのレデューサーが解析されたデータを書くために使用するStataOutputFormatを書くだろうと思います。唯一の欠点は、Stataのアプリケーションは、私はHadoopのを使用して、本当に

  • ので、あなたを助けるために起こっているあなたはすべてのデータを記述する必要がありますことを知らないので、I/Oバウンドになる傾向があり、あなたの参照のコメントのようですとにかく、あなたがハープを使っているかどうかにかかわらず、書き込みはI/O境界になります。
関連する問題