私はパンダで働いています。パンダでグルーピング、平均計算
これが私のデータである。各列は大陸(SA、NA、EA、島、海洋、AUS、AF)、ステータス(絶滅し、歴史的、導入、または現存)、注文、科、属、あるhttp://www.esapubs.org/archive/ecol/E084/094/MOMv3.3.txt 種、対数塊、混合塊、および参照をそれぞれ示している。
私は各大陸の絶滅種と現存種の大量を比較しようとしています。したがって、私はこのデータフレームを '大陸'と '地位'でグループ化し、各グループの平均塊 - 絶滅した種と現存する種 - を各種について計算する必要があります。 (例えば、大陸AF内のすべての絶滅種の平均混合質量、次に大陸AF内のすべての現存種の平均混合質量など)を計算する必要があります。
私はcsvファイル(各行の最初のエントリは大陸)、2番目のエントリはその大陸の現存種の平均質量、3番目のエントリはその大陸の絶滅種の平均質量、4番目のエントリはその大陸現存している平均の平均質量と平均の平均質量の間にある。
これは、これまでの私のコードです:
import pandas as pd
url="http://www.esapubs.org/archive/ecol/E084/094/MOMv3.3.txt"
mammalian_data = pd.read_csv(url, delimiter="\t", header=None,
names= ['continent', 'status', 'order', 'family', 'genus', 'species', 'log mass', 'combined mass', 'reference'])
AF_extant = mammalian_data.groupby(["continent", "status"]).get_group(("AF","extant"))
print(AF_extant["combined mass"].mean())
AF_extinct = mammalian_data.groupby(["continent", "status"]).get_group(("AF","extinct"))
print(AF_extinct["combined mass"].mean())
は、どのように私は7つの大陸ごとに、このコードを繰り返していますか?また、この情報を使用して新しいデータフレームを作成し、上で指定したすべての必要なエントリを含むCSVファイルにエクスポートする方法もあります。
誰でも助けてください!
ありがとう:列に
status
インデックス・レベルを移動するには、unstack
methodを使用しています。私はこの冒頭をおそらく作成できますか?そして、あなたが提案した2番目の方法を使用しますか?私は、私が見ている各グループを指定するために、このコードをコピーして貼り付けなくても、最も効率的なコードが必要です。次のグループはget_group(( "AF"、 "現存")) –指定されたCSVファイルを作成するための最も簡単で効率的な方法は何ですか? –