Regularization

Regularization#

This notebook explores regularization in linear models.

Introductory example#

We demonstrate a common issue with correlated features when fitting linear models.

We use the penguins dataset to illustrate this issue.

# When using JupyterLite, uncomment and install the `skrub` package.
%pip install skrub
import matplotlib.pyplot as plt
import skrub

skrub.patch_display()  # makes nice display for pandas tables

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/bin/python: No module named pip

Note: you may need to restart the kernel to use updated packages.

import pandas as pd

penguins = pd.read_csv("../datasets/penguins.csv")
penguins

Processing column   1 / 17

Processing column   2 / 17

Processing column   3 / 17

Processing column   4 / 17

Processing column   5 / 17

Processing column   6 / 17

Processing column   7 / 17

Processing column   8 / 17

Processing column   9 / 17

Processing column  10 / 17

Processing column  11 / 17

Processing column  12 / 17

Processing column  13 / 17

Processing column  14 / 17

Processing column  15 / 17

Processing column  16 / 17

Processing column  17 / 17

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

We select features to predict penguin body mass. We remove rows with missing target values.

features = [
    "Island",
    "Clutch Completion",
    "Flipper Length (mm)",
    "Culmen Length (mm)",
    "Culmen Depth (mm)",
    "Species",
    "Sex",
]
target = "Body Mass (g)"
data, target = penguins[features], penguins[target]
target = target.dropna()
data = data.loc[target.index]
data

Processing column   1 / 7

Processing column   2 / 7

Processing column   3 / 7

Processing column   4 / 7

Processing column   5 / 7

Processing column   6 / 7

Processing column   7 / 7

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

Let’s evaluate a simple linear model using skrub’s preprocessing.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import KFold, cross_validate

model = skrub.tabular_learner(estimator=LinearRegression())
model.set_output(transform="pandas")

cv = KFold(n_splits=5, shuffle=True, random_state=42)
cv_results = cross_validate(
    model, data, target, cv=cv, return_estimator=True, return_train_score=True
)
pd.DataFrame(cv_results)[["train_score", "test_score"]]

Processing column   1 / 2

Processing column   2 / 2

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

The test score looks good overall but performs poorly on one fold. Let’s examine the coefficient values to understand why.

coefs = [est[-1].coef_ for est in cv_results["estimator"]]
coefs = pd.DataFrame(coefs, columns=cv_results["estimator"][0][-1].feature_names_in_)
coefs.plot.box(whis=[0, 100], vert=False)
plt.show()

../../_images/d1af3e76b9e1b52e958df997e3a9d8cba762aa2bc11a2717e13c00b1c8937948.png

EXERCISE

What do you observe? What causes this behavior? Apply the preprocessing chain and check skrub’s statistics on the resulting data to understand these coefficients.

# Write your code here.

Ridge regressor - L2 regularization#

We saw that coefficients can grow arbitrarily large when features correlate.

\[ loss = (y - X \beta)^2 + \alpha \|\beta\|_2 \]

L2 regularization forces weights toward zero. The parameter \(\alpha\) controls this shrinkage. Scikit-learn implements this as the Ridge model. Let’s fit it and examine its effect on weights.

from sklearn.linear_model import Ridge

model = skrub.tabular_learner(estimator=Ridge(alpha=1)).set_output(transform="pandas")

cv_results = cross_validate(
    model, data, target, cv=cv, return_estimator=True, return_train_score=True
)
pd.DataFrame(cv_results)[["train_score", "test_score"]]

Processing column   1 / 2

Processing column   2 / 2

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

coefs = [est[-1].coef_ for est in cv_results["estimator"]]
coefs = pd.DataFrame(coefs, columns=cv_results["estimator"][0][-1].feature_names_in_)
coefs.plot.box(whis=[0, 100], vert=False)
plt.show()

../../_images/ce74d963751c949eb9bb9659f43dc62193e56e4a924df24b621d82baca4c83c9.png

A small regularization solves the weight problem. We recover the original relationship:

EXERCISE

Try different \(\alpha\) values and examine how they affect the weights.

# Write your code here.

Lasso regressor - L1 regularization#

L1 provides another regularization type. It follows this formula:

\[ loss = (y - X \beta)^2 + \alpha \|\beta\|_1 \]

Scikit-learn implements this as the Lasso regressor.

EXERCISE

Repeat the previous experiment with different \(\alpha\) values and examine how they affect the weights \(\beta\).

# Write your code here.

Elastic net - Combining L2 and L1 regularization#

Combining L2 and L1 regularization offers unique benefits: it identifies important features while preventing non-zero coefficients from growing too large.

from sklearn.linear_model import ElasticNet

model = skrub.tabular_learner(estimator=ElasticNet(alpha=10, l1_ratio=0.95))
model.set_output(transform="pandas")

cv_results = cross_validate(
    model, data, target, cv=cv, return_estimator=True, return_train_score=True
)
pd.DataFrame(cv_results)[["train_score", "test_score"]]

Processing column   1 / 2

Processing column   2 / 2

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

coefs = [est[-1].coef_ for est in cv_results["estimator"]]
coefs = pd.DataFrame(coefs, columns=cv_results["estimator"][0][-1].feature_names_in_)
coefs.plot.box(whis=[0, 100], vert=False)
plt.show()

../../_images/6817a4dd5278531e6eac91320e3688a1e3e91fdf966193249e69e59b2734404e.png

Hyperparameter tuning#

How do we choose the regularization parameter? The validation curve helps analyze single parameter effects. It plots scores versus parameter values.

Let’s use ValidationCurveDisplay to analyze how the alpha parameter affects Ridge regression.

model = skrub.tabular_learner(estimator=Ridge()).set_output(transform="pandas")

We need to find the parameter name for alpha in the model.

model.get_params()

{'memory': None,
 'steps': [('tablevectorizer', TableVectorizer()),
  ('simpleimputer', SimpleImputer(add_indicator=True)),
  ('standardscaler', StandardScaler()),
  ('ridge', Ridge())],
 'transform_input': None,
 'verbose': False,
 'tablevectorizer': TableVectorizer(),
 'simpleimputer': SimpleImputer(add_indicator=True),
 'standardscaler': StandardScaler(),
 'ridge': Ridge(),
 'tablevectorizer__cardinality_threshold': 40,
 'tablevectorizer__datetime__add_total_seconds': True,
 'tablevectorizer__datetime__add_weekday': False,
 'tablevectorizer__datetime__resolution': 'hour',
 'tablevectorizer__datetime': DatetimeEncoder(),
 'tablevectorizer__drop_null_fraction': 1.0,
 'tablevectorizer__high_cardinality__add_words': False,
 'tablevectorizer__high_cardinality__analyzer': 'char',
 'tablevectorizer__high_cardinality__batch_size': 1024,
 'tablevectorizer__high_cardinality__gamma_scale_prior': 1.0,
 'tablevectorizer__high_cardinality__gamma_shape_prior': 1.1,
 'tablevectorizer__high_cardinality__hashing': False,
 'tablevectorizer__high_cardinality__hashing_n_features': 4096,
 'tablevectorizer__high_cardinality__init': 'k-means++',
 'tablevectorizer__high_cardinality__max_iter': 5,
 'tablevectorizer__high_cardinality__max_iter_e_step': 1,
 'tablevectorizer__high_cardinality__max_no_improvement': 5,
 'tablevectorizer__high_cardinality__n_components': 30,
 'tablevectorizer__high_cardinality__ngram_range': (2, 4),
 'tablevectorizer__high_cardinality__random_state': None,
 'tablevectorizer__high_cardinality__rescale_W': True,
 'tablevectorizer__high_cardinality__rescale_rho': False,
 'tablevectorizer__high_cardinality__rho': 0.95,
 'tablevectorizer__high_cardinality__verbose': 0,
 'tablevectorizer__high_cardinality': GapEncoder(n_components=30),
 'tablevectorizer__low_cardinality__categories': 'auto',
 'tablevectorizer__low_cardinality__drop': 'if_binary',
 'tablevectorizer__low_cardinality__dtype': 'float32',
 'tablevectorizer__low_cardinality__feature_name_combiner': 'concat',
 'tablevectorizer__low_cardinality__handle_unknown': 'ignore',
 'tablevectorizer__low_cardinality__max_categories': None,
 'tablevectorizer__low_cardinality__min_frequency': None,
 'tablevectorizer__low_cardinality__sparse_output': False,
 'tablevectorizer__low_cardinality': OneHotEncoder(drop='if_binary', dtype='float32', handle_unknown='ignore',
               sparse_output=False),
 'tablevectorizer__n_jobs': None,
 'tablevectorizer__numeric': PassThrough(),
 'tablevectorizer__specific_transformers': (),
 'simpleimputer__add_indicator': True,
 'simpleimputer__copy': True,
 'simpleimputer__fill_value': None,
 'simpleimputer__keep_empty_features': False,
 'simpleimputer__missing_values': nan,
 'simpleimputer__strategy': 'mean',
 'standardscaler__copy': True,
 'standardscaler__with_mean': True,
 'standardscaler__with_std': True,
 'ridge__alpha': 1.0,
 'ridge__copy_X': True,
 'ridge__fit_intercept': True,
 'ridge__max_iter': None,
 'ridge__positive': False,
 'ridge__random_state': None,
 'ridge__solver': 'auto',
 'ridge__tol': 0.0001}

import numpy as np
from sklearn.model_selection import ValidationCurveDisplay

disp = ValidationCurveDisplay.from_estimator(
    model,
    data,
    target,
    cv=cv,
    std_display_style="errorbar",
    param_name="ridge__alpha",
    param_range=np.logspace(-3, 3, num=20),
    n_jobs=2,
)
plt.show()

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/linear_model/_ridge.py:215: LinAlgWarning: Ill-conditioned matrix (rcond=5.26528e-08): result may not be accurate.
  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(
/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

../../_images/b4593c318d1bb06cd18ca6c36663eb37193d15a791711bb5623442deb73a253f.png

Too much regularization degrades model performance.

EXERCISE

Try a very small alpha (e.g. 1e-16) and observe its effect on the validation curve.

# Write your code here.

In practice, we often use grid or random search instead of validation curves to choose regularization parameters. These methods run internal cross-validation to select the best-performing model. Let’s demonstrate random search.

from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test = train_test_split(
    data, target, random_state=42
)

search.best_params_

{'ridge__alpha': np.float64(1.984293246098125)}

pd.DataFrame(search.cv_results_)

Processing column   1 / 14

Processing column   2 / 14

Processing column   3 / 14

Processing column   4 / 14

Processing column   5 / 14

Processing column   6 / 14

Processing column   7 / 14

Processing column   8 / 14

Processing column   9 / 14

Processing column  10 / 14

Processing column  11 / 14

Processing column  12 / 14

Processing column  13 / 14

Processing column  14 / 14

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

This approach enables nested cross-validation. The inner loop selects parameters while the outer loop evaluates model performance.

cv_results = cross_validate(
    search, data, target, cv=cv, return_estimator=True, return_train_score=True
)
pd.DataFrame(cv_results)[["train_score", "test_score"]]

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Processing column   1 / 2

Processing column   2 / 2

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

Some scikit-learn models efficiently search hyperparameters internally. Models with “CV” in their name, like RidgeCV, automatically find optimal regularization parameters.

from sklearn.linear_model import RidgeCV

model = skrub.tabular_learner(estimator=RidgeCV(alphas=np.logspace(-3, 3, num=100)))
model.set_output(transform="pandas")

cv_results = cross_validate(
    model, data, target, cv=cv, return_estimator=True, return_train_score=True
)
pd.DataFrame(cv_results)[["train_score", "test_score"]]

Processing column   1 / 2

Processing column   2 / 2

/home/runner/work/traces-sklearn/traces-sklearn/.pixi/envs/docs/lib/python3.12/site-packages/sklearn/preprocessing/_encoders.py:246: UserWarning: Found unknown categories in columns [0] during transform. These unknown categories will be encoded as all zeros
  warnings.warn(

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

alphas = [est[-1].alpha_ for est in cv_results["estimator"]]
alphas

[np.float64(1.4174741629268048),
 np.float64(2.4770763559917115),
 np.float64(3.2745491628777286),
 np.float64(2.4770763559917115),
 np.float64(2.848035868435802)]

What about classification?#

Classification handles regularization differently. Instead of creating new estimators, regularization becomes a model parameter. LogisticRegression and LinearSVC offer two main models. Both use penalty and C parameters (C inverts regression’s alpha).

We’ll explore parameter C with LogisticRegression. First, let’s load classification data to predict penguin species from culmen measurements.

data = pd.read_csv("../datasets/penguins_classification.csv")
data = data[data["Species"].isin(["Adelie", "Chinstrap"])]
data["Species"] = data["Species"].astype("category")
data.head()

Processing column   1 / 3

Processing column   2 / 3

Processing column   3 / 3

Please enable javascript

The skrub table reports need javascript to display correctly. If you are displaying a report in a Jupyter notebook and you see this message, you may need to re-execute the cell or to trust the notebook (button on the top right or "File > Trust notebook").

X, y = data[["Culmen Length (mm)", "Culmen Depth (mm)"]], data["Species"]

import matplotlib.pyplot as plt

data.plot.scatter(
    x="Culmen Length (mm)",
    y="Culmen Depth (mm)",
    c="Species",
    edgecolor="black",
    s=50,
)
plt.show()

../../_images/aa6067a28e9e79c4191d20ea6d0cd7d0843129ab0dec6f2cf551a2d991fdcc15.png

QUESTION

What regularization does LogisticRegression use by default? Check the documentation.

Let’s fit a model and visualize its decision boundary.

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X, y)

LogisticRegression()

In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

from sklearn.inspection import DecisionBoundaryDisplay

display = DecisionBoundaryDisplay.from_estimator(
    model,
    X,
    response_method="decision_function",
    cmap=plt.cm.RdBu,
    plot_method="pcolormesh",
    shading="auto",
)
data.plot.scatter(
    x="Culmen Length (mm)",
    y="Culmen Depth (mm)",
    c="Species",
    edgecolor="black",
    s=50,
    ax=display.ax_,
)
plt.show()

../../_images/c8cff4fb6684a6338c3db312188b6a32a29ac185e5c4c15642adfc961f3a8791.png

coef = pd.Series(model.coef_[0], index=X.columns)
coef.plot.barh()
plt.show()

../../_images/17596f3aac0f006f9a09725168451953abe9b345007a073aac731cb512564e62.png

This example establishes a baseline for studying parameter C effects. The logistic regression loss function is:

\[ loss = \frac{1 - \rho}{2} w^T w + \rho \|w\|_1 + C \log ( \exp (y_i (X \beta)) + 1) \]

EXERCISE

Fit models with different C values and examine how they affect coefficients and decision boundaries.

# Write your code here.

The loss formula shows C affects the data term (error between true and predicted targets). In regression, alpha affects the weights instead. This explains why C inversely relates to alpha.

	studyName	Sample Number	Species	Region	Island	Stage	Individual ID	Clutch Completion	Date Egg	Culmen Length (mm)	Culmen Depth (mm)	Flipper Length (mm)	Body Mass (g)	Sex	Delta 15 N (o/oo)	Delta 13 C (o/oo)	Comments
	studyName	Sample Number	Species	Region	Island	Stage	Individual ID	Clutch Completion	Date Egg	Culmen Length (mm)	Culmen Depth (mm)	Flipper Length (mm)	Body Mass (g)	Sex	Delta 15 N (o/oo)	Delta 13 C (o/oo)	Comments
0	PAL0708	1	Adelie Penguin (Pygoscelis adeliae)	Anvers	Torgersen	Adult, 1 Egg Stage	N1A1	Yes	2007-11-11	39.1	18.7	181.0	3750.0	MALE			Not enough blood for isotopes.
1	PAL0708	2	Adelie Penguin (Pygoscelis adeliae)	Anvers	Torgersen	Adult, 1 Egg Stage	N1A2	Yes	2007-11-11	39.5	17.4	186.0	3800.0	FEMALE	8.94956	-24.69454
2	PAL0708	3	Adelie Penguin (Pygoscelis adeliae)	Anvers	Torgersen	Adult, 1 Egg Stage	N2A1	Yes	2007-11-16	40.3	18.0	195.0	3250.0	FEMALE	8.36821	-25.33302
3	PAL0708	4	Adelie Penguin (Pygoscelis adeliae)	Anvers	Torgersen	Adult, 1 Egg Stage	N2A2	Yes	2007-11-16								Adult not sampled.
4	PAL0708	5	Adelie Penguin (Pygoscelis adeliae)	Anvers	Torgersen	Adult, 1 Egg Stage	N3A1	Yes	2007-11-16	36.7	19.3	193.0	3450.0	FEMALE	8.76651	-25.32426

339	PAL0910	64	Chinstrap penguin (Pygoscelis antarctica)	Anvers	Dream	Adult, 1 Egg Stage	N98A2	Yes	2009-11-19	55.8	19.8	207.0	4000.0	MALE	9.70465	-24.53494
340	PAL0910	65	Chinstrap penguin (Pygoscelis antarctica)	Anvers	Dream	Adult, 1 Egg Stage	N99A1	No	2009-11-21	43.5	18.1	202.0	3400.0	FEMALE	9.37608	-24.40753	Nest never observed with full clutch.
341	PAL0910	66	Chinstrap penguin (Pygoscelis antarctica)	Anvers	Dream	Adult, 1 Egg Stage	N99A2	No	2009-11-21	49.6	18.2	193.0	3775.0	MALE	9.4618	-24.70615	Nest never observed with full clutch.
342	PAL0910	67	Chinstrap penguin (Pygoscelis antarctica)	Anvers	Dream	Adult, 1 Egg Stage	N100A1	Yes	2009-11-21	50.8	19.0	210.0	4100.0	MALE	9.98044	-24.68741
343	PAL0910	68	Chinstrap penguin (Pygoscelis antarctica)	Anvers	Dream	Adult, 1 Egg Stage	N100A2	Yes	2009-11-21	50.2	18.7	198.0	3775.0	FEMALE	9.39305	-24.25255

Column	Column name	dtype	Null values	Unique values	Mean	Std	Min	Median	Max
0	studyName	ObjectDType	0 (0.0%)	3 (0.9%)
1	Sample Number	Int64DType	0 (0.0%)	152 (44.2%)	63.2	40.4	1	58	152
2	Species	ObjectDType	0 (0.0%)	3 (0.9%)
3	Region	ObjectDType	0 (0.0%)	1 (0.3%)
4	Island	ObjectDType	0 (0.0%)	3 (0.9%)
5	Stage	ObjectDType	0 (0.0%)	1 (0.3%)
6	Individual ID	ObjectDType	0 (0.0%)	190 (55.2%)
7	Clutch Completion	ObjectDType	0 (0.0%)	2 (0.6%)
8	Date Egg	ObjectDType	0 (0.0%)	50 (14.5%)
9	Culmen Length (mm)	Float64DType	2 (0.6%)	164 (47.7%)	43.9	5.46	32.1	44.4	59.6
10	Culmen Depth (mm)	Float64DType	2 (0.6%)	80 (23.3%)	17.2	1.97	13.1	17.3	21.5
11	Flipper Length (mm)	Float64DType	2 (0.6%)	55 (16.0%)	201.	14.1	172.	197.	231.
12	Body Mass (g)	Float64DType	2 (0.6%)	94 (27.3%)	4.20e+03	802.	2.70e+03	4.05e+03	6.30e+03
13	Sex	ObjectDType	10 (2.9%)	3 (0.9%)
14	Delta 15 N (o/oo)	Float64DType	14 (4.1%)	330 (95.9%)	8.73	0.552	7.63	8.65	10.0
15	Delta 13 C (o/oo)	Float64DType	13 (3.8%)	331 (96.2%)	-25.7	0.794	-27.0	-25.8	-23.8
16	Comments	ObjectDType	290 (84.3%)	10 (2.9%)

Column 1	Column 2	Cramér's V
Clutch Completion	Comments	0.992
Delta 13 C (o/oo)	Comments	0.818
studyName	Sample Number	0.781
Flipper Length (mm)	Body Mass (g)	0.757
Culmen Depth (mm)	Flipper Length (mm)	0.741
Delta 15 N (o/oo)	Delta 13 C (o/oo)	0.692
Culmen Length (mm)	Flipper Length (mm)	0.670
Species	Flipper Length (mm)	0.669
Species	Island	0.660
Culmen Depth (mm)	Body Mass (g)	0.651
Sex	Comments	0.629
Flipper Length (mm)	Comments	0.626
Species	Body Mass (g)	0.612
Species	Culmen Depth (mm)	0.605
studyName	Date Egg	0.599
Delta 15 N (o/oo)	Comments	0.588
Species	Culmen Length (mm)	0.579
Culmen Length (mm)	Culmen Depth (mm)	0.559
Culmen Length (mm)	Body Mass (g)	0.543
Sample Number	Island	0.525

	Island	Clutch Completion	Flipper Length (mm)	Culmen Length (mm)	Culmen Depth (mm)	Species	Sex
	Island	Clutch Completion	Flipper Length (mm)	Culmen Length (mm)	Culmen Depth (mm)	Species	Sex
0	Torgersen	Yes	181.0	39.1	18.7	Adelie Penguin (Pygoscelis adeliae)	MALE
1	Torgersen	Yes	186.0	39.5	17.4	Adelie Penguin (Pygoscelis adeliae)	FEMALE
2	Torgersen	Yes	195.0	40.3	18.0	Adelie Penguin (Pygoscelis adeliae)	FEMALE
4	Torgersen	Yes	193.0	36.7	19.3	Adelie Penguin (Pygoscelis adeliae)	FEMALE
5	Torgersen	Yes	190.0	39.3	20.6	Adelie Penguin (Pygoscelis adeliae)	MALE

339	Dream	Yes	207.0	55.8	19.8	Chinstrap penguin (Pygoscelis antarctica)	MALE
340	Dream	No	202.0	43.5	18.1	Chinstrap penguin (Pygoscelis antarctica)	FEMALE
341	Dream	No	193.0	49.6	18.2	Chinstrap penguin (Pygoscelis antarctica)	MALE
342	Dream	Yes	210.0	50.8	19.0	Chinstrap penguin (Pygoscelis antarctica)	MALE
343	Dream	Yes	198.0	50.2	18.7	Chinstrap penguin (Pygoscelis antarctica)	FEMALE

Column	Column name	dtype	Null values	Unique values	Mean	Std	Min	Median	Max
0	Island	ObjectDType	0 (0.0%)	3 (0.9%)
1	Clutch Completion	ObjectDType	0 (0.0%)	2 (0.6%)
2	Flipper Length (mm)	Float64DType	0 (0.0%)	55 (16.1%)	201.	14.1	172.	197.	231.
3	Culmen Length (mm)	Float64DType	0 (0.0%)	164 (48.0%)	43.9	5.46	32.1	44.4	59.6
4	Culmen Depth (mm)	Float64DType	0 (0.0%)	80 (23.4%)	17.2	1.97	13.1	17.3	21.5
5	Species	ObjectDType	0 (0.0%)	3 (0.9%)
6	Sex	ObjectDType	8 (2.3%)	3 (0.9%)

Column 1	Column 2	Cramér's V
Flipper Length (mm)	Species	0.707
Culmen Length (mm)	Species	0.667
Island	Species	0.658
Culmen Depth (mm)	Species	0.639
Island	Flipper Length (mm)	0.512
Island	Culmen Depth (mm)	0.498
Flipper Length (mm)	Culmen Depth (mm)	0.387
Island	Culmen Length (mm)	0.351
Culmen Depth (mm)	Sex	0.339
Flipper Length (mm)	Culmen Length (mm)	0.333
Culmen Length (mm)	Sex	0.302
Culmen Length (mm)	Culmen Depth (mm)	0.283
Flipper Length (mm)	Sex	0.274
Clutch Completion	Culmen Depth (mm)	0.258
Clutch Completion	Flipper Length (mm)	0.197
Clutch Completion	Species	0.178
Island	Clutch Completion	0.157
Clutch Completion	Culmen Length (mm)	0.133
Island	Sex	0.117
Species	Sex	0.0774

	train_score	test_score
	train_score	test_score
0	0.8822775776060422	0.8114847854917466
1	0.8795845281201589	0.8394348553838036
2	0.8697885501596277	0.8770481181740108
3	0.867805030683953	0.8868488072574447
4	0.8720016588218696	0.8725424597803983

	train_score	test_score
	train_score	test_score
0	0.8822424247171067	0.8122357028978447
1	0.8795604661243841	0.8393711829664781
2	0.8697645458439044	0.8767961310388296
3	0.8677758230915444	0.8868640133914093
4	0.8719740572383515	0.8726581033873201

	train_score	test_score
	train_score	test_score
0	0.8483319045988991	0.7946495915893026
1	0.8465111734233646	0.816253456517587
2	0.8345425957172884	0.8456051730644178
3	0.8323476052428443	0.8577298889498699
4	0.8399405646701691	0.8355879567264349

	mean_fit_time	std_fit_time	mean_score_time	std_score_time	param_ridge__alpha	params	split0_test_score	split1_test_score	split2_test_score	split3_test_score	split4_test_score	mean_test_score	std_test_score	rank_test_score
	mean_fit_time	std_fit_time	mean_score_time	std_score_time	param_ridge__alpha	params	split0_test_score	split1_test_score	split2_test_score	split3_test_score	split4_test_score	mean_test_score	std_test_score	rank_test_score
0	0.035968017578125	0.001266300723086415	0.020697402954101562	0.0005012212587209833	234.458146774326	{'ridge__alpha': np.float64(234.458146774326)}	0.7748330689656573	0.8012270634196167	0.7976215582849489	0.8440499641656398	0.8217874564879523	0.8079038222647629	0.02342339710015936	9
1	0.03455343246459961	0.0006928242997513938	0.020396089553833006	0.00027681814366081346	19.83922736446405	{'ridge__alpha': np.float64(19.83922736446405)}	0.8287822466607332	0.8673629058812413	0.8730339048090712	0.8845213623446101	0.8808455371286077	0.8669091913648528	0.01997894984214285	7
2	0.03432607650756836	0.00019603285345577037	0.020389604568481445	0.0001498520534328059	0.09552649386031474	{'ridge__alpha': np.float64(0.09552649386031474)}	0.8383298420092085	0.8739740480744762	0.8871174251186338	0.8795669446687323	0.8756965092542	0.8709369538250501	0.01691972484160644	4
3	0.03453502655029297	0.00020953467249328097	0.020430994033813477	0.0002139492078187129	53.312147000652246	{'ridge__alpha': np.float64(53.312147000652246)}	0.81927678454271	0.8570145020610281	0.8592017925804524	0.8836753260060273	0.8725527378471669	0.858344228607477	0.02178217163020697	8
4	0.03485980033874512	0.0009625789555861882	0.020426559448242187	0.0003895558628703161	0.15932706110628528	{'ridge__alpha': np.float64(0.15932706110628528)}	0.8382944489903339	0.8739673815348152	0.8870484470733806	0.8796190100124445	0.8758384749640349	0.8709535525150018	0.01693338985681266	3
5	0.0342012882232666	0.00033350106747180147	0.02018399238586426	0.0002151431660354646	1.984293246098125	{'ridge__alpha': np.float64(1.984293246098125)}	0.8372737318652337	0.8736076787806398	0.8851701249776798	0.8808444289250773	0.8788742575609905	0.8711540444219242	0.017342731373012163	1
6	0.03408665657043457	0.0003194996629014024	0.02039036750793457	0.00045744628135241947	0.08883763971045147	{'ridge__alpha': np.float64(0.08883763971045147)}	0.8383333389266531	0.8739746987394621	0.8871246894226563	0.8795614317097146	0.8756815996531858	0.8709351516903343	0.016918390283742035	5
7	0.03484287261962891	0.0010020964669962395	0.02093191146850586	0.0009978201151210674	13.810982638149506	{'ridge__alpha': np.float64(13.810982638149506)}	0.8311879256489517	0.8694500817260187	0.8763243721726487	0.883981395653028	0.8819120910594156	0.8685711732520126	0.01935896080554444	6
8	0.0343986988067627	0.0002716848325260403	0.020312929153442384	0.00014484933143290847	2.4868137972895186	{'ridge__alpha': np.float64(2.4868137972895186)}	0.8369839325331889	0.8734687911277235	0.8846847742613769	0.8811115302581726	0.8794449202760392	0.8711387896913003	0.017458088279432855	2
9	0.03456645011901856	0.0006608197895915777	0.0204984188079834	0.00017287715223465743	762.6496480178704	{'ridge__alpha': np.float64(762.6496480178704)}	0.6295466008618905	0.6418659766719412	0.6320775726967458	0.6844970865880557	0.666179630075751	0.6508333733788769	0.0212324003765637	10

Column 1	Column 2	Cramér's V
std_test_score	rank_test_score	1.00
mean_test_score	std_test_score	1.00
split4_test_score	rank_test_score	1.00
split3_test_score	std_test_score	1.00
split4_test_score	std_test_score	1.00
split4_test_score	mean_test_score	1.00
split3_test_score	rank_test_score	1.00
split3_test_score	split4_test_score	1.00
split3_test_score	mean_test_score	1.00
split2_test_score	rank_test_score	1.00
split2_test_score	std_test_score	1.00
split1_test_score	split3_test_score	1.00
split2_test_score	mean_test_score	1.00
split2_test_score	split4_test_score	1.00
split2_test_score	split3_test_score	1.00
split1_test_score	rank_test_score	1.00
split1_test_score	std_test_score	1.00
split1_test_score	mean_test_score	1.00
split1_test_score	split4_test_score	1.00
split0_test_score	split3_test_score	1.00

	train_score	test_score
	train_score	test_score
0	0.8822775787631696	0.8114838667117166
1	0.8795790993895044	0.839408678442042
2	0.8696825746795493	0.876501283964341
3	0.8677924887841242	0.8868648592306861
4	0.8719901926066118	0.8726274555009443

	train_score	test_score
	train_score	test_score
0	0.8822096843692167	0.8125020253713926
1	0.8794538214318453	0.8392377548970351
2	0.8695733005132162	0.8762494607310561
3	0.8676484731701924	0.886807985984249
4	0.8718116496306133	0.8726517794922556

Column	Column name	dtype	Unique values	Mean	Std	Min	Median	Max
0	mean_fit_time	Float64DType	10 (100.0%)	0.0346	0.000530	0.0341	0.0345	0.0360
1	std_fit_time	Float64DType	10 (100.0%)	0.000591	0.000383	0.000196	0.000334	0.00127
2	mean_score_time	Float64DType	10 (100.0%)	0.0205	0.000209	0.0202	0.0204	0.0209
3	std_score_time	Float64DType	10 (100.0%)	0.000352	0.000261	0.000145	0.000215	0.000998
4	param_ridge__alpha	Float64DType	10 (100.0%)	109.	241.	0.0888	2.49	763.
5	params	ObjectDType	10 (100.0%)
6	split0_test_score	Float64DType	10 (100.0%)	0.807	0.0654	0.630	0.831	0.838
7	split1_test_score	Float64DType	10 (100.0%)	0.841	0.0733	0.642	0.869	0.874
8	split2_test_score	Float64DType	10 (100.0%)	0.847	0.0803	0.632	0.876	0.887
9	split3_test_score	Float64DType	10 (100.0%)	0.858	0.0622	0.684	0.880	0.885
10	split4_test_score	Float64DType	10 (100.0%)	0.851	0.0673	0.666	0.876	0.882
11	mean_test_score	Float64DType	10 (100.0%)	0.841	0.0695	0.651	0.869	0.871
12	std_test_score	Float64DType	10 (100.0%)	0.0191	0.00239	0.0169	0.0175	0.0234
13	rank_test_score	Int32DType	10 (100.0%)	5.50	3.03	1	5	10

Regularization

Contents

Regularization#

Introductory example#

studyName

Sample Number

Species

Region

Island

Stage

Individual ID

Clutch Completion

Date Egg

Culmen Length (mm)

Culmen Depth (mm)

Flipper Length (mm)

Body Mass (g)

Sex

Delta 15 N (o/oo)

Delta 13 C (o/oo)

Comments

studyName

Sample Number

Species

Region

Island

Stage

Individual ID

Clutch Completion

Date Egg

Culmen Length (mm)

Culmen Depth (mm)

Flipper Length (mm)

Body Mass (g)

Sex

Delta 15 N (o/oo)

Delta 13 C (o/oo)

Comments

Please enable javascript

Island

Clutch Completion

Flipper Length (mm)

Culmen Length (mm)

Culmen Depth (mm)

Species

Sex

Island

Clutch Completion

Flipper Length (mm)

Culmen Length (mm)

Culmen Depth (mm)

Species

Sex

Please enable javascript

train_score

test_score

train_score

test_score

Please enable javascript

Ridge regressor - L2 regularization#

train_score

test_score

train_score

test_score

Please enable javascript

Lasso regressor - L1 regularization#

Elastic net - Combining L2 and L1 regularization#

train_score

test_score

train_score

test_score

Please enable javascript

Hyperparameter tuning#

mean_fit_time

std_fit_time

mean_score_time

std_score_time

param_ridge__alpha

params

split0_test_score