上海涛德顾问学院

人工智能技术原创系列:机器学习算法中的L1 正则化

摘要: 机器学习中正则化 regularization 是通过对模型中的各参数加入惩罚项,避免模型的过拟合,提升模型的泛化能力。 正则化主要包括3中方法 L1 regularization ,也叫Lasso ,或者稀疏规则算子,索套回归 L2 regu ... ... ...

作者:涛德顾问学院

在机器学习算法中,我们往往会引入正则化 regularization 是通过对模型中的各参数加入惩罚项,避免模型的过拟合,提升模型的泛化能力。 正则化主要包括3中方法

L1 regularization ,也叫Lasso ,或者稀疏规则算子,索套回归

L2 regularization,也叫  Ridge,或者叫岭回归

L1/L2 regularization,也叫 Elastic net,或者叫弹性网络

 

这里我们来看一下L1正则化的作用 

 

L1 Regularization

L1 regularization  通过在误差公式中加入 参数的绝对值的和来实现

L1 regularization 最终会把某些参数或者权重惩罚成0,相当于设置某些特征的权重是0,因此 L1 回归也可以用于特征筛选。

 

我们用Kaggle的数据集  House Sales in King County, USA dataset ,预测房价的例子来学习L1,L2L1/L2 正则化。为了更有效果,我们只用 0.5% 的数据来训练,然后对其他 99.5% 的数据做验证。这也提供一种小样本数据的模型训练方案。

我们将使用 glmnet 包来实现各种正则化,测试不同的的 lambda . 如下图横坐标lambda变大, 更多的因子权重归0. 


可以看到特征是一个是随着lambda  越来越大逐渐被裁切掉。

另外测试误差变化
一般随着lambda值的从小到大到达某个中部附近的位置,误差可以减小到最小,减少了过拟合,lambda在增大后然后误差增大,表示模型在仅有少量特征的情况下学习能力显著下降。
联系

上海涛德顾问学院 ( 沪ICP备14006824号 )  

GMT+8, 2018-12-11 11:10 , Processed in 0.124531 second(s), 14 queries , Gzip On.

Top Data World

回顶部