[pandasの使い方] 14. インデクスを利用したデータの計算

Pandas
スポンサーリンク

DataFrameにおけるインデクスを用いたデータの計算方法について

インデクスを利用したデータの計算

pandasのDataFrameもnumpy同様に、mean, sumなどの集約関数は利用できる。

pandasにはインデクスがあるので、np.arrayよりもデータ選択の柔軟性が高い。

ここでは、インデクスを用いたデータの計算方法について説明する。

データの生成

データは、↓と同様に、多層構造をもつデータフレームの例として、サボテンの2年毎の成長データを示す。(データの中身は適当)

[pandasの使い方] 11. マルチインデクスの作成
Series, DataFrameにおける階層型構造をもつインデクスの作成についての解説

levelを指定した計算

levelの指定により、計算をする範囲を変えることができる。ここでは、DataFrame.mean(level=’year’)としているので、各年のsample_num(1,2,3)の平均値が得られる。

行方向の計算

axis=1とすることで行方向で計算ができる。DataFrame.mean(axis=1,level=’length’)としているので、すべての年の、各サンプルナンバーにおけるサボテンのwidthとheightの平均値が得られる。

その他の集約関数

集約関数計算
.sum()合計
.max()最大
.min()最小
.mean()平均
.median()中央値
.std()標準偏差
.mode()最頻値

他のものは以下の通り。

API Reference — pandas 0.23.4 documentation

参考

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

コメント