はじめに
pandasライブラリにおける二次元データ構造「DataFrame」は、Pythonによるデータ分析の中核となる機能です。本記事では、DataFrameの基本的な概念から作成方法、操作方法まで詳しく解説します。表形式データを効率的に扱いたいPythonユーザーにとって必須の知識となります。
解説
モジュールのインポート
SeriesからDataframeを作成
データの生成
Seriesの作成
2つのSeriesを作成します。
Dataframeの作成
DataFrameでは、辞書形式でカラム名とSeriesを指定することで、簡単に新しいDataFrameを作成できます。
インデックスとカラム名の取得
DataFrameオブジェクトの.index属性を使用してインデックスを取得でき、.columns属性でカラム名を取得できます。
np.arrayからDataframeを作成
pd.Dataframe(np.array)
でDatafameとなります。
columnsとindexを指定することで、デフォルトの数字のカラム名とインデックスの代わりに、任意のカラム名とインデックスを設定できます。
辞書からDataframeの作成
辞書内の要素の順序がバラバラであっても、DataFrameに変換する際に自動的にソートされます。
まとめ
DataFrameは行と列からなる二次元の表形式データ構造であり、pandasにおけるデータ分析の基盤です。辞書、リスト、NumPy配列など様々なデータソースからDataFrameを作成でき、インデックスやカラム名の設定も柔軟に行えます。基本的な操作方法を習得することで、より複雑なデータ分析へと進むことができます。
コメント