[seaborn] 10. violinplotで各カテゴリーにおけるデータの分布を表示

python

はじめに

簡単かつ簡潔にデータを可視化できるseabornを使って、各カテゴリー内のデータの分布をバイオリンプロット(violinplot)で表示する方法について説明する。

コード

解説

モジュールのインポートなど

データの読み込み

データは下記サイトから2017〜2019シーズンのJ1の結果を取得し、pandasのDataFrameとした。
作成したDataFrameはpd.concatで結合した。

リーグサマリー:2019 J1 順位表 | データによってサッカーはもっと輝く | Football LAB
フットボールラボ(Football LAB)はサッカーをデータで分析し、新しいサッカーの観戦方法を伝えるサッカー情報サイトです。選手のプレーを評価するチャンスビルディングポイントやプレースタイル指標、チームの戦術を評価するチームスタイル指標といった独自のデータを開発しています。データを活用してサッカーに新しい視点を提供...

新たな列データをDataFrameへ追加

得失のデータを使って得失点差がプラスなチームとマイナスなチームに分ける。プラスのチームには”得失+”をいれ、マイナスのチームには”得失ー”を入れる。
さらに、ランクについても同様に処理する。

DataFrameの最初の5行は以下のようになる。

順位Unnamed: 1Unnamed: 2勝点試合数得点失点得失平均得点平均失点得失点ランク
01NaN横浜F・マリノス横浜FM703422486838302.01.1得失+上位
12NaNFC東京FC東京643419784629171.40.9得失+上位
23NaN鹿島アントラーズ鹿島633418975430241.60.9得失+上位
34NaN川崎フロンターレ川崎F6034161265734231.71.0得失+上位
45NaNセレッソ大阪C大阪5934185113925141.10.7得失+上位

violinplotの表示

sns.catplot(x=”得失点”, y=”勝”, kind=”violin”,data=df)により、DataFrame(df)の得失点のカテゴリー別に勝データのviolinplotを表示する。

ヴァイオリン内部を変える

innerの値を変えることでviolin内部の表示を変えることができる。以下の4種類がある。

hueを設定した場合

hue=’ランク’とすることでランクに応じて色分けされたviolinplotが表示される。

split=Trueでヴァイオリンの片側のみを表示

hueを設定した状態でsplit=Trueとすると片側のみにヴァイオリンを表示できる。

violinplotとswarmplotを合わせて表示

violinplot とswarmplotを組み合わせて表示することをできる。

swarmplotについては下記で解説した。

[seaborn] 8. stripplotとswarmplotで各カテゴリーのデータを散布図で表示
簡単かつ簡潔にデータを可視化できるライブラリであるseabornのstripplotとswarmplotを用いて、各カテゴリーのデータをそれぞれ散布図で表示する方法について説明する。
コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

Visualizing categorical data — seaborn 0.12.2 documentation
seaborn.violinplot — seaborn 0.12.2 documentation

コメント