吴恩达机器学习课程笔记 | 第7章

吴恩达机器学习课程笔记 | 第7章
Justin本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili
@TOC
7 正则化
7-1 过拟合问题
- 上图左侧坐标系为欠拟合,用一条直线不能很好的表示这个数据集,偏差很大
- 上图中间为合适的拟合
- 上图右侧为过度拟合,拟合的曲线波动很大,假定函数中的变量过多,虽然代价函数非常接近0,但不能泛化到其他数据集中
- 上图为在逻辑回归中的欠拟合、合适的拟合、过度拟合
解决过拟合:
1.减少特征数量
2.正则化
7-2 (正则化更改)代价函数
使用正则化更改代价函数
- 直接使用上图右侧的假定函数及其代价函数会导致过拟合
- 在不去掉$θ_3$和$θ_4$的前提下,可以在代价函数上加上对于$θ_3$和$θ_4$的惩罚项:$1000θ_3^2+1000θ_3^2$,(1000只是随便一个比较大的数),加上惩罚项之后的代价函数在运算中会让参数$θ_3$和$θ_4$变得尽可能小,让$θ_3$和$θ_4$对假定函数的图像影响变小,这样就可以在保留$θ_3$和$θ_4$参数的情况下不产生过拟合。
加上惩罚项后的假定函数变为:
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+1000θ_3^2+1000θ_3^2
\right]$$
由于我们一般不知道哪一项会导致过拟合,所以在代价函数中加入正则化项
加入后的代价函数为:
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+λ\sum_{j=1}^{n}θ_j^2
\right]$$
$λ$为正则化参数,一般不对$θ_0$增加惩罚项,所以$j$从$1$开始
7-3 线性回归的正则化
- 正则化后的梯度下降循环项如上图,由于在代价函数中没有添加对$θ_0$的惩罚项,所以对$θ_0$的更新分开表示
- 对于$j=1,2,3,…,n$的梯度下降项也可化简为上图的式子
- 可以得到$1-α\frac{λ}{m}$是一个小于1但非常接近1的数
使用正则化后得到的正规方程为:
- 这里只要$λ>0$,那么括号内计算得出的矩阵一定可逆
- 而在原来没有用正则化得出的正规矩阵$θ=(X^TX)^{-1}X^Ty$中,如果$m<n$(m为样本数,n为特征数),那么括号内矩阵不可逆(是奇异矩阵),所以正则化也可以应用于样本数小于特征数时的情况,让括号内矩阵可逆
7-4 逻辑回归的正则化
正则化后逻辑回归的代价函数改为:
$$J(θ)=-\frac{1}{m}\left[\sum_{i=1}^my^{(i)}log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))\right]+\frac{λ}{2m}\sum_{j=1}^{n}θ_j^2$$
正则化后的梯度下降循环项如上图