[scikit-learn] 1. make_blobsによる分類用データの生成

matplotlib

はじめに

本記事では、scikit-learnのmake_blobs関数を使って分類モデルのテスト用データを生成する方法を解説します。この関数はガウス分布に従ったデータポイントを生成し、クラスタの数、特徴量の次元数、分散などのパラメータを調整することで、分類問題に適したデータセットを簡単に作成できます。

解説

モジュールのインポートなど

バージョン

n_samples

n_samplesを変化させることでサンプル数を変えることができます。

centers

centersを変えることでクラスターの数を変えることができます。

n_features

n_featuresパラメータを変更することで、データセットの列数(特徴量の次元数)を調整できます。

random_state

random_stateを変えることで再現可能な乱数を生成することができます。

cluster_std

cluster_stdを変えることでクラスターの分布の標準偏差を変えることができます。

center_box

center_boxパラメータを調整することで、クラスター中心点の配置範囲を設定できます。

shuffle

shuffleパラメータをFalseに設定すると、ラベルがソートされたデータを取得できます。デフォルト値はTrueです。

return_centers

return_centersパラメータをTrueに設定すると、戻り値としてクラスターの中心座標も取得できます。

コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

make_blobs
Gallery examples: Probability calibration of classifiers Probability Calibration for 3-class classification Normal, Ledo...

コメント