data.table

8熱

1答えて

私は非常に大きな時系列を持っており、最初の任意の値に基づいて異なる時系列を作成し、現在の期間を変更する必要があります。実際のデータセットでは、この変更は、データフレームの他の変数に依存するが、次のようにMWEの目的のために、私はそれを再作成： initial_value <- 100 set.seed(123) library(data.table) df <- as.data.table(

0熱

1答えて

rのデータテーブルの文を高速化

私はmem_ord（74個の変数の1561464ods）を持っています。 SITE_JOIN_DATEは日付タイプであり、SITE_JOIN_DATEは条件に従ってユーザータイプを分割しようとしています。しかし、結果を見るには遅すぎました。 if条件が遅すぎます。どうすればスピードを上げることができますか？私はまた、複数のコアを使用することができます。 mem_ord_by_user <- mem

1熱

1答えて

各コンポーネント（igraph）にクラスタIDを追加する方法

Rでigraphパッケージを使用して、データセットの2つの列に接続されたコンポーネントを取得する方法を知っています。データは、私は次のやりたいこと library(data.table) df = fread( "rn A B 1: 11 6 2: 12 6 3: 11 7 4: 13 2 5: 12 7 6: 12 8 7: 17 2 8: 13 1")[,

2熱

3答えて

data.tableを使用してif-else条件を持つ行を関数に適用する方法は？

以下のデータフレームに関数を適用する必要があります。 '日'は売上値です。オフセット値に基づいて売上を右にシフトする必要があります。たとえば、行1のオフセットは1ですが、0の場合はシフトやそれ以降は売上を1日シフトする必要があります。 id <- c('a', 'b', 'c', 'd', 'e', 'f') offset <- c(1,2,3,0,0,2) day1 <- c(1,2,3,4

3熱

2答えて

グループ単位でレベルを集計してください

どのレベルが最も高いかを確認する質問があります。ここは私のデータである：私が欲しいもの Year Area V1 V2 V3 2014 USA 100 25 50 2014 USA 200 50 60 2014 USA 200 50 50 2014 USA 200 50 50 2014 USA 300 75 40 2014 ASIA 100 25 60 2014 ASIA 100

0熱

1答えて

アンバランスパネルデータ：最初の観測年を基準にしたインデックスの計算

大規模なデータベースで作業して以来、ループのない計算を効率的に行うという点についてもう一度質問しました。基礎となる不平衡パネルデータセットは、以下のdf1の形式をとります。見ることができるように、異なる年に観察された個体（ID）が存在する。時にはまた、GAB年（ID 4を参照）： library(data.table) df1 = data.table(Year = c(2000, 2001,

1熱

1答えて

毎日のデータに変換し、休日を処理する

私は毎日のデータを含むデータテーブルを持っています。このデータテーブルから、毎週水曜日に取得された毎週のデータポイントを抽出したいと考えています。水曜日が休日の場合、つまりデータテーブルでは利用できない場合は、次に利用可能なデータポイントを取得する必要があります。ここで MWE：出力と library(data.table) df <- data.table(date=as.Date(c("20

-2熱

2答えて

条件に基づいてdata.tableの列の平均を検索し、他の値をその平均で置き換えます。

エントリがdata.tableの-1でない列の平均を見つける方法はありますか？列の名前は変数に格納されます。また、得られた平均値をエントリーが-1である値として割り当てる方法もあります。 data.frameに対応するコードは次のとおりです。 col = "col_1" mean_value = df[ df[,col]!=-1, col ] df[ df[,col]==-1, col ]

3熱

1答えて

すべてのサブセットが、私が持っている場合は

行ではなく、データの選択したブロックごとになるようにdata.tableのフィルタリング次data.table matchID characterID info 1111 4 abc 1111 12 def 1111 1 ghi 2222 8 jkl 2222 7 mno 2222 3 pwr 3333 9 abc 3333 2 ghi 333

0熱

1答えて

R glm異なるタイプの同じカテゴリ変数に対して異なるp値を生成する

私はglmを使用してモデルフィットを生成しています。私のデータには、整数変数とカテゴリ変数が混在しています。カテゴリ変数はコードの形式であり、したがってデータの整数型です。最初にモデルを生成しようとしたとき、整数型のカテゴリ変数をそのまま渡してモデルを得ました。私は一度それを確認するためにp値を見ていたが、それは重要ではなかった重要な変数であることに気づいた。これは、の形式変数である可能性が