はじめに
sklearnのdatasets.make_classification
でクラスタリング用のデータを作成することができる。データポイントは基本的にガウス分布に従い生成する。ここでは各種パラメータが生成データに及ぼす影響について説明する。
解説
モジュールのインポートなど
バージョン
n_samples
n_samplesを変化させることでサンプル数を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_samples-2.png)
n_features
n_featuresを変えることデータセットの列数を変えることができる。
n_informative & n_redundant
n_informativeは相関が強い特徴量の数で、n_redundantはn_informativeのものと線形結合になるものの数となる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_informative_n_redundant-1.png)
n_clusters_per_class
n_clusters_per_classは1クラスあたりのクラスターの数となる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_clusters_per_class-1.png)
n_classes
n_clustersはクラス数となる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_classes-1.png)
random_state
random_stateを変えることで再現可能な乱数を生成することができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/random_state-2.png)
weights
weightsをリスト形式で設定することでデータポイント数の比率を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/weights-1.png)
flip_y
flip_yをエラー生成のためにデータポイントのラベルを入れ替える機能で、0.1とすれば10%のデータのラベルが入れ替わる。デフォルト値は0.01。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/flip_y-1.png)
class_sep
値を大きくすると、クラス間がより分離するようになる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/class_sep-1.png)
shift
shiftの値を全てのデータに加えることになる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/shift-1.png)
scale
scaleの値を全てのデータに乗ずることになる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/scale-1.png)
shuffle
shuffleをFalseとすることでラベルがソートされたデータを得ることができる。デフォルトはTrue.
コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)参考
![](https://scikit-learn/stable/_images/sphx_glr_plot_release_highlights_1_5_0_thumb.png)
make_classification
Gallery examples: Release Highlights for scikit-learn 1.5 Release Highlights for scikit-learn 1.3 Release Highlights for...
コメント