[pandas] 1.1次元データ構造 Seriesについて

Pandas

はじめに

pandasはPythonでデータ分析を行う際に欠かせないライブラリです。pandasには主に2つのデータ構造があり、1次元データ構造のSeriesと2次元データ構造のDataFrameがあります。本記事ではSeriesの基本的な使い方について解説します。Seriesの作成方法からインデックスの設定方法まで、実践的な例を交えながら説明していきます。

解説

モジュールのインポート

pandasはas pdとするのが一般的となっています。

Seriesの生成

リストをSeriesに変換するには、pd.Series()で囲むだけです。すると、上記のような形式のSeriesが生成されます。インデックスはindex=[‘a’,’b’,’c’]というように設定できます。

NumPy配列への変換

Seriesに.valuesとすることでnp.arrayに変換することができます。

インデックスの取得

Seriesに.indexとすることで、インデックスを得ることができます。

要素の参照

要素はスライス表記で選択できます。[0]で0番目の要素、[1]で1番目の要素を参照できます。また、インデックスを直接指定して要素にアクセスすることも可能です。

np.arrayとして取得した.valuesやインデックスとして取得した.indexも、同様にスライスを使って値を参照することができます。

インデックスに数字を用いる

index=[10,20,30]のようにインデックスに任意の数字を使うことができます。

要素を参照するにはインデックスの値を使用する必要があり、暗黙的なインデックスによる参照はできません。

辞書からSeriesの作成

辞書形式のデータをSeriesとして読み込むと、キーがインデックスとなり、値が要素となるSeriesが生成されます。

要素の参照も上記と同様にできます。

値がすべて等しいSeriesの作成

インデックスが複数あっても要素が一つしかない場合、すべてのインデックスに対して同じ値を持つSeriesが作成されます。

まとめ

本記事では、pandasの1次元データ構造であるSeriesについて解説しました。Seriesの基本的な作成方法、数値インデックスや文字列インデックスの設定方法を学びました。これらの基礎知識は、pandasを使ったデータ分析の第一歩となります。今後はより複雑なデータ操作やDataFrameの活用方法についても学んでいくことで、Pythonでのデータ分析スキルを向上させていきましょう。

参考

コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)

コメント