[pandas] 7. DatarFrameの欠損値(NaN, None)について

Pandas

はじめに

DataFrameにおける欠損値(NaN, None)の性質について説明する。

解説

pandasのDataframeでの欠損値(NaN, None)は、np.arrayとは多少異なる点がある。

モジュールのインポート

NaN, Noneを要素として持つDataFrameの生成

DataFrameでは、NoneがNaNに変換される。データ型もfloat64となる。

NaNの影響によるデータ型の変化

int型のDataFrameの場合

要素の一部をNaNに変化させた場合、データ型がint64からfloat64に変化する。これは、NaNが浮動小数点値として扱われているためである。

bool型のDataFrameの場合

同様にbool型の配列もNaNによる影響で、float64型となる。

NumpyにおけるNan

numpyにおけるNanについては下記記事で説明している。

[NumPy] 11. NumPy配列におけるNaNの様々な処理方法
NumPy配列のNaN値(欠損値)を検出、置換、削除する方法について解説します。データ分析時に必要なNaN処理の基本的なテクニックから応用まで網羅的に紹介します。

参考

コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

コメント