[seaborn] 14. pairplotで複数変数の関係性を視覚化する方法

python

はじめに

本記事では、Pythonの可視化ライブラリであるseabornのpairplot関数を用いて、複数の数値変数間の関係性を効率的に視覚化する方法について解説します。pairplotは各変数の組み合わせにおける散布図と分布図を一度に生成し、データセット全体のパターンや相関関係を把握するのに役立ちます。データ分析や統計解析の初期段階で多変量データの特性を素早く理解したい場合に特に有用なテクニックです。

コード

解説

モジュールのインポートなど

version

データの読み込み

サッカーJリーグのJ1の2017年から2019年の結果を下記サイトから取得します。各URLからテーブルをDataFrameとして読み込み、それらをリストに追加していきます。

リーグサマリー:2020 J1 順位表 | データによってサッカーはもっと輝く | Football LAB
フットボールラボ(Football LAB)はサッカーをデータで分析し、新しいサッカーの観戦方法を伝えるサッカー情報サイトです。選手のプレーを評価するチャンスビルディングポイントやプレースタイル指標、チームの戦術を評価するチームスタイル指標...

DataFrameへの列の追加と結合

各データフレームに[‘year’]列を追加します。pd.concatを使用してリスト内のデータフレームを結合し、結合後のDataFrameの先頭5行は以下のようになります。

順位 Unnamed: 1 Unnamed: 2 勝点 試合数 得点 失点 得失 平均得点 平均失点 year
0 1 NaN 川崎フロンターレ川崎F 72 34 21 9 4 71 32 39 2.1 0.9 2017
1 2 NaN 鹿島アントラーズ鹿島 72 34 23 3 8 53 31 22 1.6 0.9 2017
2 3 NaN セレッソ大阪C大阪 63 34 19 6 9 65 43 22 1.9 1.3 2017
3 4 NaN 柏レイソル柏 62 34 18 8 8 49 33 16 1.4 1.0 2017
4 5 NaN 横浜F・マリノス横浜FM 59 34 17 8 9 45 36 9 1.3 1.1 2017

ilocによるDataFrameの取得

データセットの6,7,8列目のデータを抽出したDataFrameと、6,7,8列目に加えて最終列を含むDataFrameをそれぞれ作成します。

pairplotの表示

sns.pairplot(data_pp)を使用して、data_ppデータセット内の全変数間のペアワイズ関係を視覚的に表示します。

hueによる色分けしたpairplot

sns.pairplot(data_pp_y, hue=”year”)でdata_pp_yのyearのデータに応じて色分けしたpairplotが表示されます。

pairplotでmarkerを設定

markers=[“o”, “^”, “s”]のようにデータ数と同じサイズのマーカーのリストを設定することで各データのマーカーを変えることができます。

任意のデータのみをpairplotで表示

vars=[“得点”, “勝点”]のように設定することで、DataFrameの中からpairplotするデータを選択することができます。

pairplotで対角と下側のみ図を表示

corner=Trueで対角と下側のみ図を表示できます。

線形回帰つき散布図のpairplot

kind=”reg”とすることで線形回帰を表示した散布図によるpairplotを表示できます。

対角の図をカーネル密度推定グラフにする

diag_kind=”kde”とすることで対角の図をkdeplotにすることができます。

コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

Visualizing distributions of data — seaborn 0.13.2 documentation
seaborn.pairplot — seaborn 0.13.2 documentation

コメント