[pandas] 8. DataFrameに欠損値(NaN)があるときの処理

Pandas

2019.01.102020.03.23

目次

はじめに
解説
参考

はじめに

DataFrameにおける欠損値(NaN)の処理方法として、NaNを除外したり、置換したりする方法について説明する。

解説

モジュールのインポート

NaNを含むDataFrameの作成

NaNがTrueとなるisnull()

isnullにより、NaNの部分がTrueとなったbool型の配列が得られる。

NaNがFalseとなるnotnull()

notnullはisnullの逆で、NaNの部分がFalseとなったbool型の配列が得られる。

NaNを除外するdropna()

dropna()によりNaNを含む行を除外した配列が得られる。

dropna()でaxis=1、または、axis='columns'とすることでよりNaNを含む列を除外できる。

how='all'により、全てNaNの行だけ除外される。

NaNに値を代入するfillna()

.fillna(#)の#にNaNの代わりにしたい数値をいれると、NaNがその数値となった配列が得られる。

ひとつ前の要素を代入するffill

ffillはforward-fillの略で、NaNのひとつ前の要素が代入される。

ひとつ後の要素を代入するbfill

bfillはback-fillの略でひとつ後の要素が代入される。

axis=1とすることで列方向のひとつ後の要素が代入される。

ffill, bfillともに前、後の要素がNaNの場合はNaNのままとなる。

参考

pandas.DataFrame.fillna — pandas 2.3.0 documentation

pandas.DataFrame.dropna — pandas 2.3.0 documentation

https://www.amazon.co.jp/Python%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9%E3%83%8F%E3%83%B3%E3%83%89%E3%83%96%E3%83%83%E3%82%AF-%E2%80%95Jupyter%E3%80%81NumPy%E3%80%81pandas%E3%80%81Matplotlib%E3%80%81scikit-learn%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%9F%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%80%81%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92-Jake-VanderPlas/dp/4873118417/ref=as_li_ss_tl?_encoding=UTF8&psc=1&refRID=RJHM13TP382X0BD4SH9B&linkCode=ll1&tag=sabopy-22&linkId=d9b7881a6fc5bc56ec31c4341bc8ed37&language=ja_JP

コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)

コメント