はじめに
pandasのread_csvで100万個の1次元データを読み込む方法を説明する。
解説
モジュールのインポート
バージョン
データの生成
1,000,000個のデータをnumpy配列で作成した。
データの保存
index_label=Falseとして、データだけを保存する。
データの読み込み
pd.read_csv(“fileのパス”)で読み込むことができる。
読み込み時間は0.204 sだった。
縦データの先頭5行を表示
先頭の5行をhead()で表示すると以下のようになる。
0 | |
---|---|
0 | 0.522728 |
1 | 0.136164 |
2 | 0.099355 |
3 | 0.648669 |
4 | 0.326723 |
データを横にして保存
DataFrameを.Tで転置して保存する。
横データの読み込み
横データだと26 sもかかる。縦データの127倍遅い。
横データの先頭5列を表示
ilocで先頭の5列を表示すると以下のようになる。
0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|
0 | 0.522728 | 0.136164 | 0.099355 | 0.648669 | 0.326723 |
参考
pandas.read_csv — pandas 2.2.3 documentation
pandas.DataFrame.to_csv — pandas 2.2.3 documentation
コメント