はじめに
sklearnのdatasets.make_blobs
でクラスタリング用のデータを作成することができる。データポイントはガウス分布に従い生成する。ここでは各種パラメータが生成データに及ぼす影響について説明する。
解説
モジュールのインポートなど
バージョン
n_samples
n_samplesを変化させることでサンプル数を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_samples-1.png)
centers
centersを変えることでクラスターの数を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/centers-1.png)
n_features
n_featuresを変えることデータセットの列数を変えることができる。
random_state
random_stateを変えることで再現可能な乱数を生成することができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/random_state-1.png)
cluster_std
cluster_stdを変えることでクラスターの分布の標準偏差を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/cluster_std-1.png)
center_box
center_boxを変えることでクラスターの中心が取ることのできる範囲を設定できる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/center_box-1.png)
shuffle
shuffleをFalseとすることでラベルがソートされたデータを得ることができる。デフォルトはTrue.
return_centers
return_centersをTrueとすることでreturnでクラスターの中心の座標が得られる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/return_centers-1.png)
参考
![](https://scikit-learn/stable/_images/sphx_glr_plot_release_highlights_1_1_0_thumb.png)
make_blobs
Gallery examples: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Probability Calibrati...
コメント