pandas-groupby

    0

    1答えて

    私はDataFrameにある時系列データの拡張Zスコアを計算したいが、複数の列の平均と標準偏差を使ってデータを標準化したいが、別々に各列内の平均および標準偏差ではなく、私はgroupbyとDataFrame.expandingの組み合わせを使いたいと思っていますが、私はそれを理解できないようです。ここではいくつかのサンプルデータです: import pandas as pd import num

    1

    1答えて

    私はパンダのデータフレームdfを持ち、列はuserとproductです。どの製品をどのユーザーが購入したかを記述し、同じ製品を繰り返し購入することを説明します。例えば。ユーザー1が製品23を3回購入した場合、dfには、ユーザー1に対して3回のエントリ23が含まれます。 すべてのユーザーについて、そのユーザーが3回以上購入した製品のみに興味があります。したがって、私はs = df.groupby('

    1

    1答えて

    として別の列を使用してデータフレームの列の値を変更することができます。 mac len corp detail 18025 14:1F:BA 8 IeeeRegi IEEE Registration Authority 18026 14:1F:BA:00:00:00 10 Shenzhen Shenzhen Mining Technology Co.,Ltd.

    0

    1答えて

    Okだから、私はpd.groupbyデータフレームでtxtを書いた。今私はそれを開く必要があります。 f = open('C:/MDH.txt', 'r') reg = f.read() rege = np.asarray(reg) それはちょうど私の長い\とラインnは、行は元の配列に終わったが得られますが、422472個の要素のための無区切りと:私は今のところ得たもの です。一例として、

    1

    2答えて

    パンダの新機能、解決策が明らかな場合はごめんなさい。 私は別の映画のシーンと、その映画のワンシーン。この場合 import pandas as pd data = [{'movie' : 'movie_X', 'scene' : '1', 'environment' : 'home'}, {'movie' : 'movie_X', 'scene' : '2', 'environmen

    1

    1答えて

    データフレームの複数のグループに対して操作を適用し、結果でそのグループのすべての値を入力したいとします。 df=pd.DataFrame({"a":[1,3,2,4],"b":[1,1,2,2]}) この a b 0 1 1 1 3 1 2 2 2 3 4 2 のように見えた今、私は、その後にaの平均を取る、bによってグループにデータフレームをしたい:たとえば、次のデータフレームと

    1

    1答えて

    複数のgroupby出力を比較する方法は何でしょうか。 >>> tmp1 account place balance type 0 A A1 10 B1 1 A A1 20 B1 2 A A1 30 B1 3 A A1 10 B4 4 A A1 20 B4 5 A A1 10 B5 6 A A1 10 B6 7 B A2 10 B7 8

    1

    1答えて

    私はこの挑戦を解決するためにgroupbyをどのように使うことができるのか理解できない。ほとんどのgroupbyの例は明らかに、 - 連続値。 Timestamp 'Signal' 'Value 00:00:00 1 12 00:00:01 1 12.2 00:00:02 1 2.1 00:00:03 0 1.1 00:00:04 1 6.2 00:00:05 1

    1

    1答えて

    私は2つの列User_IDとItem_IDを持っています。ここでは、0または1のいずれかの値を含む新しい列「並べ替え」を作成します.0は特定のユーザーが項目を1回だけ注文したとき、1は特定のユーザーが項目を複数回注文したときです。 これは、User_IDをグループ化してからapply関数を使って重複した項目を1としてマッピングし、0と重複しないようにすることで実現できると思いますが、正しいPyth

    2

    1答えて

    は、私はその後、numberで今 index = pd.MultiIndex.from_arrays([list("ABCD"),("one","one","two","two")],names=['letter','number']) testdf.columns = index testdf Out[44]: letter A B C D number on