私は日のデータを持つデータセット(1行は1行)を扱っています - 製品の(それが宣伝されている)それはユーザによって見られているか、またはアクションがとられているかどうかです。代替方法でRのSqldf演算子の効率を上げよう
このデータセットで分析を実行する前に、Rのデータセットを分析する前に、製品の数とアクションの回数の差があるすべての日を除外する方法でデータをフィルタリングする必要があります取られて2で、ビューは3 ある私はR内のSQL文によってこれを行うことができました - まず、私は次のようsqldfパッケージを使用して、必要な日数フィルタリング:
filterd_days = sqldf(select day, count(views) as seen, count(action)
as actions from subset_data group by day
having (count(views) - count(action) = 2) and count(views) = 3)
私は、このデータセットに参加(O/pのSQL)を元のデータセットにフィルタリングして、必要な日付をフィルタリングします。
data_new = data[data$day %in% filter_days$day,]
しかし、これは実行する各データセットの5分の近くを取っているし、これは、この操作を実行し、同じO/Pを取得するためのより高速な方法があるかどう思って毎日実行する必要があるとして。
サンプル入力データと予想される出力データを提供することは、実際の回答を得るのに最も役立ちます。 – Gopala
インデックスを追加してみてください。例については、sqldf githubページを参照してください。 –