文字列内のhtml構文を置き換える方法を見つけようとしています。私はcsvファイルがたくさんあるので、pandasがcsvに対処する素晴らしいツールであることがわかりました。pandasカラムのhtml構文/ asciiコードを置き換えます
場合によっては、文字列に埋め込まれたhtml構文を持つデータを受け取ります。たとえば、アドレス欄には、という125끈 downing st
が表示されます。それは1
だけでなく、'
と&
となり、'
と&
です。
私はこのコードを実行しようとしましたが、私はそれは私がこのような事業名、住所、市、州などいくつかの列を取得
くれdf = df.replace(r'[-]','-', regex=True)
を適切なフォーマットを与えていないことを知っている - ので、私は、すべてのターゲットとしたいと思います列だけで、すべてのHTML構文を確認するためには削除されている/
データフレーム形式
Address 1 Company
0 1stDŽst Avenue N johnson & johnson
1 243񯂐 Kingsway Ave cold & brew
2 300 Hwy 7 coder's club
希望の形式
置き換えAddress 1 Company
0 1st-2st Avenue N johnson and johnson
1 243-4800 Kingsway Ave cold and brew
2 300 Hwy 7 coder's club
私はパンダの初心者ですが、私はこのツールを愛しています。ご協力いただきありがとうございます。
UPDATE:
[OK]を、私はこのdf = df.replace(r'[-]','-', regex=True)
がdf = df.replace(r'-','-', regex=True)
する必要があり、私が使用したコードの上に私のミスを発見しました。これは、そのhtml構文を置き換えます。しかし、私はまだこの問題のpythonic解決策を探したいと思います。
他のhtml構文を削除するには、このコードを実行すると便利です。
df = df.replace(r'-','-', regex=True).replace(r''','', regex=True).replace(r'&','and', regex=True)
このコード行にはクリーンな解決策がありますか?コメントに述べたようにだけ、ここに来て新しい人に答え、可能な解決策を残す
感謝。私はリストで値を変更できると思います。たとえば 'df.replace([r '&#45'、r '&#39']、[' - '、 '']、regex = True)'ですが、わかりません。 [docs](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html) – gabra
@gabraを確認してください。編集に関するご意見ありがとうございます。はい、最初のコメントで提供されたコードは、魅力的に働いていました。これは私が必要とするもので、より良いPythonコーダーにしようとしています。本当にありがとう! – medev21