[pandas] 21. データ数100万の1次元データをpd.read_csvで読み込む

Pandas

はじめに

pandasのread_csvで100万個の1次元データを読み込む方法を説明する。

解説

モジュールのインポート

バージョン

データの生成

1,000,000個のデータをnumpy配列で作成した。

データの保存

index_label=Falseとして、データだけを保存する。

データの読み込み

pd.read_csv(“fileのパス”)で読み込むことができる。

読み込み時間は0.204 sだった。

縦データの先頭5行を表示

先頭の5行をhead()で表示すると以下のようになる。

0
0 0.522728
1 0.136164
2 0.099355
3 0.648669
4 0.326723

データを横にして保存

DataFrameを.Tで転置して保存する。

横データの読み込み

横データだと26 sもかかる。縦データの127倍遅い。

横データの先頭5列を表示

ilocで先頭の5列を表示すると以下のようになる。

0 1 2 3 4
0 0.522728 0.136164 0.099355 0.648669 0.326723
コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

pandas.read_csv — pandas 2.2.1 documentation
pandas.DataFrame.to_csv — pandas 2.2.1 documentation

コメント