categorical-data

    2

    1答えて

    例えば、私は、次のCSV形式でデータを持っている: 1、2、1:3:4、2 0、1、3:5、1 .. コンマで区切られた各列は、1つの機能を表します。通常、機能はワンホット(、たとえばcol0、col1、col3)ですが、この場合、col2の機能には複数の入力(コロンで区切られています)があります。 私はtensorflowがスパーステンソルとワンホット機能を扱うことができると確信しているが、私は

    5

    5答えて

    次のコードを使用して、文字列を自分のデータセットのカテゴリ値に変換しています。例えばのために data['weekday'] = pd.Categorical.from_array(data.weekday).labels 、平日を符号化した後 index weekday 0 Sunday 1 Sunday 2 Wednesday 3 Monday 4 Monday 5

    1

    1答えて

    私はRには新しく、実際にはすべてのことを頭で覆そうとしています。 私が始めたのは、規制の遵守に関する97の変数を含む大きなデータフレームです。 私は、さまざまな地理的な場所に基づいて複数のデータフレームを作成しました(おそらく、より簡単な方法があります)。 これらのデータフレームのそれぞれには、「はい」と「いいえ」の回答の平均値を見つける7つの変数があります。 は、私が最初に試さ: summary

    1

    1答えて

    パンダ0.18.1を使用すると、dtypeがcategoryのカラムをフィルタリングするときに違った動作が実現しました。ここには最小の例があります。整数型の列の値のいずれかをフィルタリングは import pandas as pd import numpy as np l = np.random.randint(1, 4, 50) df = pd.DataFrame(dict(c_type

    -1

    1答えて

    私は「クロス検証済み」フォーラムで、これまでのところ応答なしでも、この質問をしてきたので、私もここにしようとしています:私は類似度行列を計算したい を(私はさらに私のデータ(自動車会社の失敗データ)からクラスタリング目的で使用されます。データは次の変数で構成されています: 開始日+時間(dd/mm/yyyy hh/mm/ss)、DURATION(秒)、DAY OF THE WEEK(月、火、...

    -2

    1答えて

    x軸にyear_week、y軸にtest_duration、そして別の系列として各演算子のプロットを作成する必要があります。 1週間で同じオペレーターに複数のデータポイントが存在する可能性があります。私は各シリーズの周りに標準偏差バンドを表示する必要があります。 data = pd.DataFrame({'year_week':[1601,1602,1603,1604,1604,1604], '

    2

    1答えて

    ロケーション機能があるとします。列車データセットでは、そのユニークな値は「NewYork」、「Chicago」です。しかし、テストセットには「NewYork」、「Chicago」、「London」があります。 「ロンドン」を無視する方法を1つのホットエンコーディングにしていますか? つまり、テストセットにのみ表示されるカテゴリをエンコードする方法はありませんか?

    2

    1答えて

    私は、カテゴリデータのクラスタ解析を行っています。したがって、kモードアプローチを使用しています。 私のデータは、環境設定調査の形になっています: どのように髪と目が好きですか? 回答者は4可能性の固定(複数選択)セットからの回答を拾うことができます。 したがって、ダミーを取得し、kモードを適用し、クラスタを最初のdfに接続して、pcaを使用して2Dでプロットします。 私のコードは次のようになりま

    4

    1答えて

    カテゴリデータを持つデータフレームの列がありますが、一部のデータが欠落しています。つまりNaNです。私は欠損値を埋めるためにこのデータの線形補間を実行したいが、それについてどうやって行くのか分からない。私はそれらを埋める必要があるので、NaNをドロップしてデータをカテゴリ型に変えることはできません。何をしようとしているかを示す簡単な例。 col1 col2 5 cloudy 3 windy

    3

    1答えて

    列 'id'を持つPandasデータフレームを考えてみましょう。この列の行はカテゴリを表す文字列のリストで構成されています。ダミー変数を取得する効率的な方法は何ですか? 例: 入力: df1 = pd.DataFrame({'id': ['0,1', '24,25', '1,24']}) 出力:結果 df1['id'].str.get_dummies(sep=',') : df2 = pd