data-cleansing

    0

    1答えて

    Springバッチメタデータ用のHSQLDBインメモリデータベースでSpring Batchを使用しています。私のアプリケーションは継続的に実行する必要があるので、このデータベースは自分の記憶にとって問題になります。定期的に清掃する方法が必要です。私はすでに、条件(古いデータ)に従ってデータを削除するストアドプロシージャの使用について考えました。このプロシージャは、Spring StoredPro

    12

    1答えて

    ごとにグループ化され、以前の非欠損値、とパンダのデータが欠落して入力します。私は、以前の非NANと各NAN「X」を置換したい id x 0 1 10 1 1 20 2 2 100 3 2 200 4 1 NaN 5 2 NaN 6 1 300 7 1 NaN 「X」と同じ「ID」値を持つ行から: id x 0 1 10 1 1 20 2 2 100 3 2 200 4

    2

    1答えて

    大量の複雑なファイル(主にCSVファイルですが、一部はありません)を解析しているため、それらをいくつかの標準フォーマットに構造化/解析する必要があります。これは、データの列方向のクリーンアップを含むだけでなく、単純な個々のセルベースのロジックを含みます。私は非プログラマーも使用できるツールを望んでいるので、ビジネスチームメンバーは簡単なドラッグアンドドロップロジックを書いてエンジニアリング時間を費

    9

    4答えて

    pandas factorize関数は、系列内の各固有値を順次0ベースのインデックスに割り当て、各系列エントリがどのインデックスに属するかを計算します。 私は複数の列にpandas.factorizeと同等のものを達成したいと思います: import pandas as pd df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2,

    1

    3答えて

    私はPriceと呼ばれるデータセットを持っていますが、数字であると考えられていますが、すべてが5で+に置き換えられているため文字列として生成されます。 それは次のようになります。私は5で、私が書いたコードを+を試して交換するRでgsub機能を使用 "99000" "98300" "98300" "98290" "98310" " 9831+ " "98310" " 9830+ " " 9830+

    -1

    1答えて

    は、次のように私はデータフレームがあると、 import pandas as pd columns=['A','B','C','D', 'E', 'F'] index=['1','2','3','4','5','6'] df = pd.DataFrame(columns=columns,index=index) df['D']['1'] = 1 df['E'] = 1 df['F']

    0

    1答えて

    悲しいことに、私のデータはかなり非正常であり、否定的かつ積極的に歪められていないので、一部の統計者によれば、利用可能なオプションは1つしかありません(逆スコア変換、ログ、平方根、私は仕事が正に歪曲したデータだけに不思議に思うと聞きました)。私は技術を探検し、私が見つけたすべての答えは、データポイントがスケールスコアを反映しているときに、逆スコアリングを参照します(例えば、データポイントが参加者の回

    0

    1答えて

    15個のSQL Serverテーブルがあり、それぞれ約50個の列があります。 これらの列には、引用符、カンマ、タブを含む行があります。 私は、列名が与えられた行からこれらをすべて削除する機能を持っていますが、どの列に問題があるのか​​わかりません。 テーブル名が与えられた不正なデータを返すSQL Server 2005クエリが必要です。

    0

    2答えて

    最初の投稿はここにあります。どのような素晴らしいリソース。だれかが助けてくれることを願っています。 私はほとんどが数値ではなく全てを含む文字フィールドを持っています。フィールドはdiagと呼ばれ、varchar(8)という形式になっています。それには診断コードが含まれており、時には不一致で入力されています。だから、diagフィールドに29001が表示されることがあります。あるいは私は290.001

    0

    2答えて

    Informaticaの1対1マッピングの直接マッピングを使用してテーブルAと重複するテーブルADuplicateをロードしようとしました。 しかし、私はエラー以下だ: 「この列に許可される指定精度より大きな値が」私は両方のテーブルの数(15)であるC4カラム、のために、ロード中に問題があることに気づきました。ロードでエラーが発生した データは200000300123と-1000000000000