はじめに
sklearnのdatasets.make_classification
でクラスタリング用のデータを作成することができる。データポイントは基本的にガウス分布に従い生成する。ここでは各種パラメータが生成データに及ぼす影響について説明する。
解説
モジュールのインポートなど
バージョン
n_samples
n_samplesを変化させることでサンプル数を変えることができる。
data:image/s3,"s3://crabby-images/91610/91610ababbd07dcf17b287b8cc0fae4f0d8c8eb6" alt=""
n_features
n_featuresを変えることデータセットの列数を変えることができる。
n_informative & n_redundant
n_informativeは相関が強い特徴量の数で、n_redundantはn_informativeのものと線形結合になるものの数となる。
data:image/s3,"s3://crabby-images/030d8/030d84764be7ddd29ebb1c1a7dc93fb8db77492c" alt=""
n_clusters_per_class
n_clusters_per_classは1クラスあたりのクラスターの数となる。
data:image/s3,"s3://crabby-images/dbdb1/dbdb1173e40efbaf230587cc6961d28697efc416" alt=""
n_classes
n_clustersはクラス数となる。
data:image/s3,"s3://crabby-images/5b264/5b264f3456e7adc832a266795c7fef20330b9730" alt=""
random_state
random_stateを変えることで再現可能な乱数を生成することができる。
data:image/s3,"s3://crabby-images/a0d90/a0d907c8cdaa4bf2c953effaf4b0b8e0200a69f4" alt=""
weights
weightsをリスト形式で設定することでデータポイント数の比率を変えることができる。
data:image/s3,"s3://crabby-images/94e3d/94e3d927158495024d9560ecf4b433865116fecf" alt=""
flip_y
flip_yをエラー生成のためにデータポイントのラベルを入れ替える機能で、0.1とすれば10%のデータのラベルが入れ替わる。デフォルト値は0.01。
data:image/s3,"s3://crabby-images/a7ee4/a7ee4154f25ef729aad8882a3b12e6d39bbcf28d" alt=""
class_sep
値を大きくすると、クラス間がより分離するようになる。
data:image/s3,"s3://crabby-images/182d8/182d83ebab08772e03bc26cdbac4469f610c718e" alt=""
shift
shiftの値を全てのデータに加えることになる。
data:image/s3,"s3://crabby-images/1e04d/1e04d002a64b4ed88f5347e192e005a4b7a80b53" alt=""
scale
scaleの値を全てのデータに乗ずることになる。
data:image/s3,"s3://crabby-images/8ceb7/8ceb703e8e438ab901207f469fe1be52478258d8" alt=""
shuffle
shuffleをFalseとすることでラベルがソートされたデータを得ることができる。デフォルトはTrue.
コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)参考
data:image/s3,"s3://crabby-images/fb31a/fb31afeca2028ccc0612cc4b9eb9dd06f74a5a37" alt=""
make_classification
Gallery examples: Release Highlights for scikit-learn 1.6 Release Highlights for scikit-learn 1.5 Release Highlights for...
コメント