data-cleansing

    0

    2答えて

    与えられた単語と一致する順列を探し、列の位置に基づいてデータを整列したい。 IE - 私はそれがこのようなものになります、私はいくつかのwebsites.Sayから廃棄データをCSVを作成しました。その後、私は(1)Name2はで名1から各単語の順列を見つけたい Name1 OtherVars Name2 More Vars Stanford 23451 Mamford No MIT

    -1

    2答えて

    約18の列がある.csvファイルからインポートされたpandasデータフレームで作業しています。各列には、列ヘッダーとしてHTML形式の項目名とイメージの説明があります。これは次のようなものです。 A <img width="300" alt="A" height="300".jpg">` ` B <img width="400" alt="B" height="600".jpg"`......

    0

    3答えて

    マイリスト終了: ['\n\r\n\tThis article is about sweet bananas. For the genus to which banana plants belong, see Musa (genus).\n\r\n\tFor starchier bananas used in cooking, see Cooking banana. For other uses,

    1

    1答えて

    まだPysparkには比較的新しいです。私はバージョン2.1.0を使用します。 はるかに大きなデータセットでいくつかのデータを消去しようとしています。 私は、 "dropDuplicates"やサブセットやSQL関数(distinct、countなど)などのいくつかのテクニックをうまく使いました。 私は事を単純化するかもしれないと思ったdropnaに来ました。しかし、なぜ私は行3と6がまだdrop

    1

    2答えて

    csv形式のテキストデータセットを消去するためにgsub()を使用しようとしています。今、私のデータのサンプル行は次のようである: "5.0\t/gp/customer-reviews/R3M62HO4M6LXE6?ASIN=0439023521\tEngaging. Brutal but engaging!\t\"Wow. I was barely able to put this book d

    0

    1答えて

    私は、特定の列のデータセットの文字列を置き換えようとしています。 1または0の場合は1、それ以外の場合は「Y」、それ以外の場合は0です。 ラムダでデータフレームからrddへの変換を使用して、対象とする列を特定できましたが、処理に時間がかかります。 各列ごとにrddへの切り替えが実行され、次にdistinctが実行されますが、これはしばらく時間がかかります! 異なる結果セットに 'Y'が存在する場合

    -1

    1答えて

    私は電話番号を入力するためのすべてのバリエーションのデータベースを持っています。また、特殊文字やユーザーが入力したさまざまな形式も含まれます。データはExcelにあり、すべての電話番号を単一の形式(国番号 - 電話番号:+1 - 1234567899)にしようとしています。データの国によって電話番号が異なります。皆さん、Pythonでこれを行う方法をお勧めしますか?

    0

    1答えて

    私は約10のデータソースを持っています。私はAccess DBで集計して、Tableauダッシュボードのセットを供給しようとしています。ファイルにはすべて従業員データが含まれていますが、問題はEmployee_Nameがファイル全体で一貫性がなく、一意のIDを持つファイルが1つしかないため、必要な結合を実行できません。 すべてのファイルに共通のEmployee_IDでソースデータを取得するのが最善

    0

    1答えて

    私は以下のデータを持っています.1行のデータフレームをRDDに変換しました。 私はPySpark 2.1.0を使用しています。 [Row((1 - (count(YEAR_MTH)/count(1)))=0.0, (1 - (count(REPORTED_BY)/count(1)))=0.0, (1 - (count(FALLS_WITHIN)/count(1)))=0.0, (1 - (c

    0

    1答えて

    私たちはTFSをかなり新しくしており、一部の領域をクリーンアップしようとしています。シンプルなTFSクエリで、 "New suite"という名前の180以上のテストスイートがあることがわかります...それぞれを開き、それに割り当てられているテストケースがあるかどうかを見たいと思っていません。 Empty Test Suitesのレポートを入手する方法はありますか?Empty Test Plans?