data-manipulation

    0

    1答えて

    私はdata_vと呼ばれるデータを持っていて、そのうちの1つは給与です。データの範囲は0〜140 000です。異なる範囲(range1:0-10000、range2:10000-20000 ...)を探して、各範囲の中央値を計算し、範囲を中央値で置き換えます。 first = data_v$salaries[data_v$salaries>=0 & data_v$salaries<10000]

    0

    2答えて

    を、私は、次のデータがあります。 Name Event John EventA Anna EventA Dave EventA Stew EventB John EventB Anna EventB John EventC Stew EventC Dave EventC を私はほとんど同じイベントを行う人を見つけるしたいと思います。たとえば、上記の例では、最も類似している上

    0

    2答えて

    サンプルデータセットは以下のようになります。私は文字の数を計算する必要があります。 keyword <- c("advertising", "advertising budget", "marketing plan detail", "marketing budget and forecast") 「nchar」関数を試しましたが、実際には桁数が計算されます

    0

    1答えて

    のストリームからデータを読み取ることができません。ファイルを読み込み、.createReadStreamメソッドを使用してデータに変換しようとしていますが、プログラムを実行するとエラーは発生しませんが、console.logターミナル 'undefined'にアドバイスをお願いします。ここ //Readable Steams var fs = require("fs"); var data =

    2

    1答えて

    データ操作の問題があります。基本的に私は次のように、2倍の列と応答変数を持つデータフレームを持っている:私は達成したい何 set.seed(1234) df <- data.frame(ID = rep(1:10,each=4), Condition = factor(rep(c("A","B","C","D"),10)), Resp = runif(40,0,

    1

    1答えて

    私は上の部分がいくつかのメタデータであり、下がデータフレームである以下のようなデータのcsvを持っています。奇妙なデータ構造を:@Sotosが言ったように > dput(sampledata2) structure(list(X1 = c("Name", "ID1", "ID2", "Date", NA, "Var1", "1", "2", "3"), X2 = c("some name",

    1

    1答えて

    私は困難なデータ操作の問題のような感じがしており、何かガイダンスを得ることを望んでいます。私が扱っていますいくつかの問題があります dput(test) c("<play quarter=\"1\" oncourt-id=\"\" time-minutes=\"12\" time-seconds=\"0\" id=\"1\"/>", "<play quarter=\"2\" oncourt-id

    0

    1答えて

    ドメイン名のリスト(たとえばgoogle.com)を持っていて、ドメイン名の列とa-zからなる26の新しい列からなるデータフレームを作成したいと考えています。データフレームの行は、各ドメイン内に表示される各文字の数で構成する必要があります。私はそれが単一の行のために働くことができますが、データフレーム全体ではありません。ここで私はこれまで持っているものです。 df_letters = data_f

    0

    1答えて

    私はPysparkを初めて使用しています。私はSpark 2.0.2を使用しています。私は例えば RDD_1001_01、U-キー列で利用可能なユニークな値から新しいRDDを作成する必要が U-Key || V1 || V2 || V3 || ----------------------------------- 1001_01 || 12 || 41 || 21 || 1001_01

    0

    2答えて

    ここに私のサンプルデータセットがあります。 Singer <- c("A","B","C","A","B","D") Rank <- c(1,2,3,3,2,1) data <- data_frame(Singer,Rank) 各歌手のランクの平均を計算したいと思います。そして私は以下のような "要約"機能を使用しました。 summarise(group_by(data,Singer),m