[scikit-learn] 8. make_regressionによる回帰用のランダムなデータの生成

matplotlib

はじめに

sklearnのdatasets.make_regressionで回帰問題用のランダムなデータを作成することができる。ここでは各種パラメータが生成するデータに及ぼす影響について説明する。

解説

モジュールのインポートなど

バージョン

n_samples

n_samplesを変化させることでサンプル数を変えることができる。

n_features

データの列数を変えることができる。

n_informative

線形モデルに適合するデータ(列)の数を設定できる。1と2とした場合は以下のようになる。2は左上と右下が線形モデルに合うように思える。

n_targets

n_targetsは出力値Yの数となる。n_targets=4として異なるYとXをプロットすると以下のようになる。

bias

biasは切片の値となる。

noise

noiseでばらつきを付与できる。

random_state

random_stateを変えることで再現可能な乱数を生成することができる。

coef

coefをTrueとすることで線形モデルの係数を得ることができる。デフォルトはFalse.
n_features=4とすれば4つのcoefが得られる。

コードをダウンロード(.pyファイル)

コードをダウンロード(.ipynbファイル)

参考

sklearn.datasets.make_regression
Examples using sklearn.datasets.make_regression: Release Highlights for scikit-learn 0.23 Release Highlights for scikit-learn 0.23, Prediction Latency Predictio...

コメント