[pandas] 21. データ数100万の1次元データをpd.read_csvで読み込む

Pandas

はじめに

pandasのread_csvで100万個の1次元データを読み込む方法を説明する。

解説

モジュールのインポート

バージョン

データの生成

1,000,000個のデータをnumpy配列で作成した。

データの保存

index_label=Falseとして、データだけを保存する。

データの読み込み

pd.read_csv(“fileのパス”)で読み込むことができる。

読み込み時間は0.204 sだった。

縦データの先頭5行を表示

先頭の5行をhead()で表示すると以下のようになる。

0
00.522728
10.136164
20.099355
30.648669
40.326723

データを横にして保存

DataFrameを.Tで転置して保存する。

横データの読み込み

横データだと26 sもかかる。縦データの127倍遅い。

横データの先頭5列を表示

ilocで先頭の5列を表示すると以下のようになる。

01234
00.5227280.1361640.0993550.6486690.326723
コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

pandas.read_csv — pandas 2.1.0 documentation
pandas.DataFrame.to_csv — pandas 2.1.0 documentation

コメント