data.table

    8

    1答えて

    私は非常に大きな時系列を持っており、最初の任意の値に基づいて異なる時系列を作成し、現在の期間を変更する必要があります。実際のデータセットでは、この変更は、データフレームの他の変数に依存するが、次のようにMWEの目的のために、私はそれを再作成: initial_value <- 100 set.seed(123) library(data.table) df <- as.data.table(

    0

    1答えて

    私はmem_ord(74個の変数の1561464ods)を持っています。 SITE_JOIN_DATEは日付タイプであり、SITE_JOIN_DATEは条件に従ってユーザータイプを分割しようとしています。しかし、結果を見るには遅すぎました。 if条件が遅すぎます。どうすればスピードを上げることができますか?私はまた、複数のコアを使用することができます。 mem_ord_by_user <- mem

    1

    1答えて

    Rでigraphパッケージを使用して、データセットの2つの列に接続されたコンポーネントを取得する方法を知っています。 データは、私は次のやりたいこと library(data.table) df = fread( "rn A B 1: 11 6 2: 12 6 3: 11 7 4: 13 2 5: 12 7 6: 12 8 7: 17 2 8: 13 1")[,

    2

    3答えて

    以下のデータフレームに関数を適用する必要があります。 '日'は売上値です。オフセット値に基づいて売上を右にシフトする必要があります。たとえば、行1のオフセットは1ですが、0の場合はシフトやそれ以降は売上を1日シフトする必要があります。 id <- c('a', 'b', 'c', 'd', 'e', 'f') offset <- c(1,2,3,0,0,2) day1 <- c(1,2,3,4

    3

    2答えて

    どのレベルが最も高いかを確認する質問があります。ここ は私のデータである:私が欲しいもの Year Area V1 V2 V3 2014 USA 100 25 50 2014 USA 200 50 60 2014 USA 200 50 50 2014 USA 200 50 50 2014 USA 300 75 40 2014 ASIA 100 25 60 2014 ASIA 100

    0

    1答えて

    大規模なデータベースで作業して以来、ループのない計算を効率的に行うという点についてもう一度質問しました。 基礎となる不平衡パネルデータセットは、以下のdf1の形式をとります。見ることができるように、異なる年に観察された個体(ID)が存在する。時にはまた、GAB年(ID 4を参照): library(data.table) df1 = data.table(Year = c(2000, 2001,

    1

    1答えて

    私は毎日のデータを含むデータテーブルを持っています。このデータテーブルから、毎週水曜日に取得された毎週のデータポイントを抽出したいと考えています。水曜日が休日の場合、つまりデータテーブルでは利用できない場合は、次に利用可能なデータポイントを取得する必要があります。ここで MWE:出力と library(data.table) df <- data.table(date=as.Date(c("20

    -2

    2答えて

    エントリがdata.tableの-1でない列の平均を見つける方法はありますか? 列の名前は変数に格納されます。また、得られた平均値をエントリーが-1である値として割り当てる方法もあります。 data.frameに対応するコードは次のとおりです。 col = "col_1" mean_value = df[ df[,col]!=-1, col ] df[ df[,col]==-1, col ]

    3

    1答えて

    行ではなく、データの選択したブロックごとになるようにdata.tableのフィルタリング次data.table matchID characterID info 1111 4 abc 1111 12 def 1111 1 ghi 2222 8 jkl 2222 7 mno 2222 3 pwr 3333 9 abc 3333 2 ghi 333

    0

    1答えて

    私はglmを使用してモデルフィットを生成しています。私のデータには、整数変数とカテゴリ変数が混在しています。カテゴリ変数はコードの形式であり、したがってデータの整数型です。最初にモデルを生成しようとしたとき、整数型のカテゴリ変数をそのまま渡してモデルを得ま​​した。私は一度それを確認するためにp値を見ていたが、それは重要ではなかった重要な変数であることに気づいた。 これは、の形式変数である可能性が