はじめに
sklearnのdatasets.make_regression
で回帰問題用のランダムなデータを作成することができる。ここでは各種パラメータが生成するデータに及ぼす影響について説明する。
解説
モジュールのインポートなど
バージョン
n_samples
n_samplesを変化させることでサンプル数を変えることができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_samples-5.png)
n_features
データの列数を変えることができる。
n_informative
線形モデルに適合するデータ(列)の数を設定できる。1と2とした場合は以下のようになる。2は左上と右下が線形モデルに合うように思える。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_informative1-1.png)
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_informative2-1.png)
n_targets
n_targetsは出力値Yの数となる。n_targets=4として異なるYとXをプロットすると以下のようになる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/n_targets-1.png)
bias
biasは切片の値となる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/bias-1.png)
noise
noiseでばらつきを付与できる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/noise-4.png)
random_state
random_stateを変えることで再現可能な乱数を生成することができる。
![](https://sabopy.com/wp/wp-content/uploads/2021/01/random_state-5.png)
coef
coefをTrueとすることで線形モデルの係数を得ることができる。デフォルトはFalse.
n_features=4とすれば4つのcoefが得られる。
参考
![](https://scikit-learn/stable/_images/sphx_glr_plot_release_highlights_1_4_0_thumb.png)
make_regression
Gallery examples: Release Highlights for scikit-learn 1.4 Release Highlights for scikit-learn 0.23 Prediction Latency Co...
コメント