[seaborn] 14. 複数のデータのペアワイズ関係をpairplotで表示

python

はじめに

簡単かつ簡潔にデータを可視化できるライブラリであるseabornを用いて、複数のデータの関係性をpairplotで表示する方法について説明する。

コード

コードをダウンロード(.pyファイル)コードをダウンロード(.ipynbファイル)

解説

モジュールのインポートなど

seabornなどのversion

データの読み込み

2017-2019のサッカーJリーグのJ1の結果を下記サイトから読み込む。URLごとにTableをDataFrameとして読み込み、読み込んだものをリストに加えていく。

リーグサマリー:2020 J1 順位表 | データによってサッカーはもっと輝く | Football LAB
フットボールラボ(Football LAB)はサッカーをデータで分析し、新しいサッカーの観戦方法を伝えるサッカー情報サイトです。選手のプレーを評価するチャンスビルディングポイントやプレースタイル指標、チームの戦術を評価するチームスタイル指標といった独自のデータを開発しています。データを活用してサッカーに新しい視点を提供...

DataFrameへの列の追加と結合

各データフレームに[‘year’]の列を追加する。

pd.concatでリスト内のデータフレームを結合する。結合したDataFrameの上位5行は以下のようになる。

順位Unnamed: 1Unnamed: 2勝点試合数得点失点得失平均得点平均失点year
01NaN川崎フロンターレ川崎F723421947132392.10.92017
12NaN鹿島アントラーズ鹿島723423385331221.60.92017
23NaNセレッソ大阪C大阪633419696543221.91.32017
34NaN柏レイソル柏623418884933161.41.02017
45NaN横浜F・マリノス横浜FM59341789453691.31.12017

ilocによるDataFrameの取得

6,7,8列目のデータと、6,7,8列目と最後の一列で構成されたDataFrameをそれぞれ作成する。

pairplotの表示

sns.pairplot(data_pp)でdata_ppの各データ間のペアワイズ関係をプロットする。

hueによる色分けしたpairplot

sns.pairplot(data_pp_y, hue=”year”)でdata_pp_yのyearのデータに応じて色分けしたpairplotが表示される。

pairplotでmarkerを設定

markers=[“o”, “^”, “s”]のようにデータ数と同じサイズのマーカーのリストを設定することで各データのマーカーを変えることができる。

任意のデータのみをpairplotで表示

vars=[“得点”, “勝点”]のように設定することで、DataFrameの中からpairplotするデータを選択することができる。

pairplotで対角と下側のみ図を表示

corner=Trueで対角と下側のみ図を表示できる。

線形回帰つき散布図のpairplot

kind=”reg”とすることで線形回帰を表示した散布図によるpairplotを表示できる。

対角の図をカーネル密度推定グラフにする

diag_kind=”kde”とすることで対角の図をkdeplotにすることができる。

参考

Visualizing the distribution of a dataset — seaborn 0.10.1 documentation
seaborn.pairplot — seaborn 0.10.1 documentation

コメント