[seaborn] 15. 線形回帰つき散布図をregplot,lmplotで表示

python

はじめに

簡単かつ簡潔にデータを可視化できるライブラリであるseabornを用いて、線形回帰つき散布図をregplot,lmplotで表示する方法について説明する。

コード

コードをダウンロード(.pyファイル)コードをダウンロード(.ipynbファイル)

解説

モジュールのインポートなど

seabornなどのversion

データの読み込み

2017-2019のサッカーJリーグのJ1の結果を下記サイトから読み込む。URLごとにTableをDataFrameとして読み込み、読み込んだものをリストに加えていく。

リーグサマリー:2020 J1 順位表 | データによってサッカーはもっと輝く | Football LAB
フットボールラボ(Football LAB)はサッカーをデータで分析し、新しいサッカーの観戦方法を伝えるサッカー情報サイトです。選手のプレーを評価するチャンスビルディングポイントやプレースタイル指標、チームの戦術を評価するチームスタイル指標といった独自のデータを開発しています。データを活用してサッカーに新しい視点を提供...

DataFrameへの列の追加と結合

各データフレームに[‘year’]の列を追加する。

pd.concatでリスト内のデータフレームを結合する。結合したDataFrameの上位5行は以下のようになる。

順位Unnamed: 1Unnamed: 2勝点試合数得点失点得失平均得点平均失点year
01NaN川崎フロンターレ川崎F723421947132392.10.92017
12NaN鹿島アントラーズ鹿島723423385331221.60.92017
23NaNセレッソ大阪C大阪633419696543221.91.32017
34NaN柏レイソル柏623418884933161.41.02017
45NaN横浜F・マリノス横浜FM59341789453691.31.12017

regplotの表示

x軸に”勝”データ, y軸に”得点”データをプロットし、線形回帰が表示される。

lmplotの表示

regplotと同様の線形回帰つき散布図がlmplotによっても表示される。

regplotとlmplotの違い

regplotはSeriesやnumpy配列を渡してもplotが表示されるが、lmplotはDataFrameのカラム名でなければならない。Seriesを渡した場合、TypeError Invalid comparison between dtype=int64 and strとなる。

jitterで散布図の位置をずらす

x_jitter=0.2と適当な数値をいれることで散布図の点を微妙にずらして、点が何個あるかが容易にわかるようになる。ずらすことによる線形回帰への影響はない。

x_estimator=np.meanで平均値を表示

x_estimator=np.meanとすることで散布図の代わりに平均値がプロットされる。

ci=noneで信頼区間を非表示にする

ci=noneで透明な青い部分として示されている信頼区間を非表示にすることができる。

hueで色によるデータの分離

hue=”year”とすることで年ごとに色を分けて散布図と線形回帰を表示できる。

col,rowで各データを複数グラフで表示

col=”year”とすることで横並びの図で各年の線形回帰つき散布図を示せる。

row=”year”とすることで縦並びの図で各年の線形回帰つき散布図を示せる。

参考

Visualizing regression models — seaborn 0.11.0 documentation
seaborn.regplot — seaborn 0.11.0 documentation
seaborn.lmplot — seaborn 0.11.0 documentation

コメント