[scikit-learn] 1. make_blobsによる分類用データの生成

matplotlib

はじめに

sklearnのdatasets.make_blobsでクラスタリング用のデータを作成することができる。データポイントはガウス分布に従い生成する。ここでは各種パラメータが生成データに及ぼす影響について説明する。

解説

モジュールのインポートなど

バージョン

n_samples

n_samplesを変化させることでサンプル数を変えることができる。

centers

centersを変えることでクラスターの数を変えることができる。

n_features

n_featuresを変えることデータセットの列数を変えることができる。

random_state

random_stateを変えることで再現可能な乱数を生成することができる。

cluster_std

cluster_stdを変えることでクラスターの分布の標準偏差を変えることができる。

center_box

center_boxを変えることでクラスターの中心が取ることのできる範囲を設定できる。

shuffle

shuffleをFalseとすることでラベルがソートされたデータを得ることができる。デフォルトはTrue.

return_centers

return_centersをTrueとすることでreturnでクラスターの中心の座標が得られる。

コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

make_blobs
Gallery examples: Release Highlights for scikit-learn 1.1 Release Highlights for scikit-learn 0.23 Probability Calibrati...

コメント