はじめに
sklearnのdatasets.make_blobs
でクラスタリング用のデータを作成することができる。データポイントはガウス分布に従い生成する。ここでは各種パラメータが生成データに及ぼす影響について説明する。
解説
モジュールのインポートなど
バージョン
n_samples
n_samplesを変化させることでサンプル数を変えることができる。
centers
centersを変えることでクラスターの数を変えることができる。
n_features
n_featuresを変えることデータセットの列数を変えることができる。
random_state
random_stateを変えることで再現可能な乱数を生成することができる。
cluster_std
cluster_stdを変えることでクラスターの分布の標準偏差を変えることができる。
center_box
center_boxを変えることでクラスターの中心が取ることのできる範囲を設定できる。
shuffle
shuffleをFalseとすることでラベルがソートされたデータを得ることができる。デフォルトはTrue.
return_centers
return_centersをTrueとすることでreturnでクラスターの中心の座標が得られる。
コードをダウンロード(.pyファイル) コードをダウンロード(.ipynbファイル)参考
make_blobs
Gallery examples: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Probability Calibrati...
コメント