[pandas] 2. 2次元データ構造 Dataframeについて

Pandas

はじめに

pandasライブラリにおける二次元データ構造「DataFrame」は、Pythonによるデータ分析の中核となる機能です。本記事では、DataFrameの基本的な概念から作成方法、操作方法まで詳しく解説します。表形式データを効率的に扱いたいPythonユーザーにとって必須の知識となります。

解説

モジュールのインポート

SeriesからDataframeを作成

データの生成

Seriesの作成

2つのSeriesを作成します。

Dataframeの作成

DataFrameでは、辞書形式でカラム名とSeriesを指定することで、簡単に新しいDataFrameを作成できます。

インデックスとカラム名の取得

DataFrameオブジェクトの.index属性を使用してインデックスを取得でき、.columns属性でカラム名を取得できます。

np.arrayからDataframeを作成

pd.Dataframe(np.array)でDatafameとなります。

columnsとindexを指定することで、デフォルトの数字のカラム名とインデックスの代わりに、任意のカラム名とインデックスを設定できます。

辞書からDataframeの作成

辞書内の要素の順序がバラバラであっても、DataFrameに変換する際に自動的にソートされます。

まとめ

DataFrameは行と列からなる二次元の表形式データ構造であり、pandasにおけるデータ分析の基盤です。辞書、リスト、NumPy配列など様々なデータソースからDataFrameを作成でき、インデックスやカラム名の設定も柔軟に行えます。基本的な操作方法を習得することで、より複雑なデータ分析へと進むことができます。

参考

コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)

コメント