[pandasの使い方] 20. DataFrameにおける集計

Pandas
スポンサーリンク

pandasのSeries, DataFrameの集計方法について

DataFrameにおける簡単な集計(合計、最大値など)

pandasのDataFrameはnp.arrayと同様に集計ができる。ここでは、その方法について説明する。

NumPyの集約関数は以下の記事を参照。

[NumPyの使い方] 5. np.sum, np.std などの集約関数
np.sum, np.std などの集約関数 の使い方

Seriesの場合

データの生成
合計値

seri.sum()により、Seriesの要素の合計値が得られる。

中央値

seri.median()により、Seriesの要素の中央値が得られる。

DataFrameの場合

データの生成
最小値

df.min()で各列の最小値が得られる。

df.min(axis=1)とすることで、行に対しての集計を行うことができる。

様々な集約結果を返すdescribe()

df2.describe()で要素数、平均、標準偏差、最小値、25%,50% 75%の値、最大値を返す。np.random.randn(10000)は標準正規分布に従う乱数1万個なので、平均が0、標準偏差が1程度となっていることがわかる。

その他の集計

要素数

要素数は、df.count()で得られる。

全要素の積

全要素の積は、df.prod()で得られる。

平均絶対偏差

平均絶対偏差とは、要素の値と平均値の差の絶対値の平均であり、df.mad()で得られる。

最大値

最大値は、df.max()で得られる。

参考

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

コメント