はじめに
pandasはPythonでデータ分析を行う際に欠かせないライブラリです。pandasには主に2つのデータ構造があり、1次元データ構造のSeriesと2次元データ構造のDataFrameがあります。本記事ではSeriesの基本的な使い方について解説します。Seriesの作成方法からインデックスの設定方法まで、実践的な例を交えながら説明していきます。
解説
モジュールのインポート
pandasはas pdとするのが一般的となっています。
Seriesの生成
リストをSeriesに変換するには、pd.Series()で囲むだけです。すると、上記のような形式のSeriesが生成されます。インデックスはindex=[‘a’,’b’,’c’]というように設定できます。
NumPy配列への変換
Seriesに.valuesとすることでnp.arrayに変換することができます。
インデックスの取得
Seriesに.indexとすることで、インデックスを得ることができます。
要素の参照
要素はスライス表記で選択できます。[0]で0番目の要素、[1]で1番目の要素を参照できます。また、インデックスを直接指定して要素にアクセスすることも可能です。
np.arrayとして取得した.valuesやインデックスとして取得した.indexも、同様にスライスを使って値を参照することができます。
インデックスに数字を用いる
index=[10,20,30]のようにインデックスに任意の数字を使うことができます。
要素を参照するにはインデックスの値を使用する必要があり、暗黙的なインデックスによる参照はできません。
辞書からSeriesの作成
辞書形式のデータをSeriesとして読み込むと、キーがインデックスとなり、値が要素となるSeriesが生成されます。
要素の参照も上記と同様にできます。
値がすべて等しいSeriesの作成
インデックスが複数あっても要素が一つしかない場合、すべてのインデックスに対して同じ値を持つSeriesが作成されます。
まとめ
本記事では、pandasの1次元データ構造であるSeriesについて解説しました。Seriesの基本的な作成方法、数値インデックスや文字列インデックスの設定方法を学びました。これらの基礎知識は、pandasを使ったデータ分析の第一歩となります。今後はより複雑なデータ操作やDataFrameの活用方法についても学んでいくことで、Pythonでのデータ分析スキルを向上させていきましょう。
コメント