はじめに
本記事では、Pythonの可視化ライブラリであるseabornのpairplot関数を用いて、複数の数値変数間の関係性を効率的に視覚化する方法について解説します。pairplotは各変数の組み合わせにおける散布図と分布図を一度に生成し、データセット全体のパターンや相関関係を把握するのに役立ちます。データ分析や統計解析の初期段階で多変量データの特性を素早く理解したい場合に特に有用なテクニックです。
コード

解説
モジュールのインポートなど
version
データの読み込み
サッカーJリーグのJ1の2017年から2019年の結果を下記サイトから取得します。各URLからテーブルをDataFrameとして読み込み、それらをリストに追加していきます。

DataFrameへの列の追加と結合
各データフレームに[‘year’]列を追加します。pd.concatを使用してリスト内のデータフレームを結合し、結合後のDataFrameの先頭5行は以下のようになります。
順位 | Unnamed: 1 | Unnamed: 2 | 勝点 | 試合数 | 勝 | 分 | 敗 | 得点 | 失点 | 得失 | 平均得点 | 平均失点 | year | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | NaN | 川崎フロンターレ川崎F | 72 | 34 | 21 | 9 | 4 | 71 | 32 | 39 | 2.1 | 0.9 | 2017 |
1 | 2 | NaN | 鹿島アントラーズ鹿島 | 72 | 34 | 23 | 3 | 8 | 53 | 31 | 22 | 1.6 | 0.9 | 2017 |
2 | 3 | NaN | セレッソ大阪C大阪 | 63 | 34 | 19 | 6 | 9 | 65 | 43 | 22 | 1.9 | 1.3 | 2017 |
3 | 4 | NaN | 柏レイソル柏 | 62 | 34 | 18 | 8 | 8 | 49 | 33 | 16 | 1.4 | 1.0 | 2017 |
4 | 5 | NaN | 横浜F・マリノス横浜FM | 59 | 34 | 17 | 8 | 9 | 45 | 36 | 9 | 1.3 | 1.1 | 2017 |
ilocによるDataFrameの取得
データセットの6,7,8列目のデータを抽出したDataFrameと、6,7,8列目に加えて最終列を含むDataFrameをそれぞれ作成します。
pairplotの表示
sns.pairplot(data_pp)を使用して、data_ppデータセット内の全変数間のペアワイズ関係を視覚的に表示します。

hueによる色分けしたpairplot
sns.pairplot(data_pp_y, hue=”year”)でdata_pp_yのyearのデータに応じて色分けしたpairplotが表示されます。

pairplotでmarkerを設定
markers=[“o”, “^”, “s”]のようにデータ数と同じサイズのマーカーのリストを設定することで各データのマーカーを変えることができます。

任意のデータのみをpairplotで表示
vars=[“得点”, “勝点”]のように設定することで、DataFrameの中からpairplotするデータを選択することができます。

pairplotで対角と下側のみ図を表示
corner=Trueで対角と下側のみ図を表示できます。

線形回帰つき散布図のpairplot
kind=”reg”とすることで線形回帰を表示した散布図によるpairplotを表示できます。

対角の図をカーネル密度推定グラフにする
diag_kind=”kde”とすることで対角の図をkdeplotにすることができます。

コメント