data-manipulation

0熱

1答えて

私はdata_vと呼ばれるデータを持っていて、そのうちの1つは給与です。データの範囲は0〜140 000です。異なる範囲（range1：0-10000、range2：10000-20000 ...）を探して、各範囲の中央値を計算し、範囲を中央値で置き換えます。 first = data_v$salaries[data_v$salaries>=0 & data_v$salaries<10000]

0熱

2答えて

- R

を、私は、次のデータがあります。 Name Event John EventA Anna EventA Dave EventA Stew EventB John EventB Anna EventB John EventC Stew EventC Dave EventC を私はほとんど同じイベントを行う人を見つけるしたいと思います。たとえば、上記の例では、最も類似している上

0熱

2答えて

文字列の文字数を計算するR

サンプルデータセットは以下のようになります。私は文字の数を計算する必要があります。 keyword <- c("advertising", "advertising budget", "marketing plan detail", "marketing budget and forecast") 「nchar」関数を試しましたが、実際には桁数が計算されます

0熱

1答えて

ノード

のストリームからデータを読み取ることができません。ファイルを読み込み、.createReadStreamメソッドを使用してデータに変換しようとしていますが、プログラムを実行するとエラーは発生しませんが、console.logターミナル 'undefined'にアドバイスをお願いします。ここ //Readable Steams var fs = require("fs"); var data =

2熱

1答えて

dplyrを使用して行のセットとターゲット行の差を計算するにはどうすればよいですか？

データ操作の問題があります。基本的に私は次のように、2倍の列と応答変数を持つデータフレームを持っている：私は達成したい何 set.seed(1234) df <- data.frame(ID = rep(1:10,each=4), Condition = factor(rep(c("A","B","C","D"),10)), Resp = runif(40,0,

1熱

1答えて

データフレームに変数として開始行を追加します

私は上の部分がいくつかのメタデータであり、下がデータフレームである以下のようなデータのcsvを持っています。奇妙なデータ構造を：@Sotosが言ったように > dput(sampledata2) structure(list(X1 = c("Name", "ID1", "ID2", "Date", NA, "Var1", "1", "2", "3"), X2 = c("some name",

1熱

1答えて

strpslit文字配列とデータフレームに同時に変換する

私は困難なデータ操作の問題のような感じがしており、何かガイダンスを得ることを望んでいます。私が扱っていますいくつかの問題があります dput(test) c("<play quarter=\"1\" oncourt-id=\"\" time-minutes=\"12\" time-seconds=\"0\" id=\"1\"/>", "<play quarter=\"2\" oncourt-id

0熱

1答えて

rの文字の出現を確認

ドメイン名のリスト（たとえばgoogle.com）を持っていて、ドメイン名の列とa-zからなる26の新しい列からなるデータフレームを作成したいと考えています。データフレームの行は、各ドメイン内に表示される各文字の数で構成する必要があります。私はそれが単一の行のために働くことができますが、データフレーム全体ではありません。ここで私はこれまで持っているものです。 df_letters = data_f

0熱

1答えて

Pyspark RDDから複数RDDへのRDD

私はPysparkを初めて使用しています。私はSpark 2.0.2を使用しています。私は例えば RDD_1001_01、U-キー列で利用可能なユニークな値から新しいRDDを作成する必要が U-Key || V1 || V2 || V3 || ----------------------------------- 1001_01 || 12 || 41 || 21 || 1001_01

0熱

2答えて

グループ内のグループに基づいて文字列の出現を計算する

ここに私のサンプルデータセットがあります。 Singer <- c("A","B","C","A","B","D") Rank <- c(1,2,3,3,2,1) data <- data_frame(Singer,Rank) 各歌手のランクの平均を計算したいと思います。そして私は以下のような "要約"機能を使用しました。 summarise(group_by(data,Singer),m