はじめに
このページでは、Pythonの可視化ライブラリseabornのviolinplot機能を使って、カテゴリカルデータの分布を効果的に表示する方法について解説します。
コード

解説
モジュールのインポートなど
データの読み込み
データは下記サイトから2017~2019シーズンのJ1の結果を取得し、pandasのDataFrameに変換しました。作成したDataFrameはpd.concatで結合しました。

リーグサマリー:2019 J1 順位表 | データによってサッカーはもっと輝く | Football LAB
フットボールラボ(Football LAB)はサッカーをデータで分析し、新しいサッカーの観戦方法を伝えるサッカー情報サイトです。選手のプレーを評価するチャンスビルディングポイントやプレースタイル指標、チームの戦術を評価するチームスタイル指標...
新たな列データをDataFrameへ追加
得失点差のデータを使って、プラスのチームとマイナスのチームに分類します。プラスのチームには「得失+」、マイナスのチームには「得失-」というラベルを付けます。 同様の方法でランクについても処理します。
DataFrameの最初の5行は以下のようになります。
順位 | Unnamed: 1 | Unnamed: 2 | 勝点 | 試合数 | 勝 | 分 | 敗 | 得点 | 失点 | 得失 | 平均得点 | 平均失点 | 得失点 | ランク | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | NaN | 横浜F・マリノス横浜FM | 70 | 34 | 22 | 4 | 8 | 68 | 38 | 30 | 2.0 | 1.1 | 得失+ | 上位 |
1 | 2 | NaN | FC東京FC東京 | 64 | 34 | 19 | 7 | 8 | 46 | 29 | 17 | 1.4 | 0.9 | 得失+ | 上位 |
2 | 3 | NaN | 鹿島アントラーズ鹿島 | 63 | 34 | 18 | 9 | 7 | 54 | 30 | 24 | 1.6 | 0.9 | 得失+ | 上位 |
3 | 4 | NaN | 川崎フロンターレ川崎F | 60 | 34 | 16 | 12 | 6 | 57 | 34 | 23 | 1.7 | 1.0 | 得失+ | 上位 |
4 | 5 | NaN | セレッソ大阪C大阪 | 59 | 34 | 18 | 5 | 11 | 39 | 25 | 14 | 1.1 | 0.7 | 得失+ | 上位 |
violinplotの表示
sns.catplot(x=”得失点”, y=”勝”, kind=”violin”, data=df)を使用することで、DataFrame(df)内の「得失点」カテゴリー別に「勝」データの分布をバイオリンプロット(violinplot)で視覚化できます。

ヴァイオリン内部を変える
innerの値を変えることでviolin内部の表示を変えることができ、以下の4種類があります。

hueを設定した場合
hue=’ランク’とすることでランクに応じて色分けされたviolinplotが表示されます。

split=Trueでヴァイオリンの片側のみを表示
hueを設定した状態でsplit=Trueとすると片側のみにヴァイオリンを表示できます。

violinplotとswarmplotを合わせて表示
violinplot とswarmplotを組み合わせて表示することもできます。

swarmplotについては下記で解説した。

[seaborn] 8. stripplotとswarmplotで各カテゴリーのデータを散布図で表示
簡単かつ簡潔にデータを可視化できるライブラリであるseabornのstripplotとswarmplotを用いて、各カテゴリーのデータをそれぞれ散布図で表示する方法について説明する。
参考
Visualizing categorical data — seaborn 0.13.2 documentation
seaborn.violinplot — seaborn 0.13.2 documentation
コメント