最小二乘法到线性回归到逻辑回归再到梯度下降算法,大规模机器学习

巨型数据集的读书

It’s not who has the best algorithm that wins. It’s who has the most
data.

在机械学习中,决定因素往往不是算法而是数据集的轻重缓急。正如大家事先所学习的欠拟合难题,我们增添数据往往能支持大家获得越发知足的结果。

但大型数据集的上学都某些极度的标题,极度是计量难点。

现倘若数据集m=一千00000,大家想使用该数额集中磨炼练贰个线性回归也许逻辑回归模型,并利用梯度下落算法最优化模型的代价函数。

永利集团304com 1

为了总结每一步的消沉梯度,我们必要对这一亿条数据求和,那总计量是老大大的。由此,我们在先行应该解析我们需无需这么大的数量集。在本例中,恐怕大家只用一千个数据也能获取较好的结果。在此时期,大家能够绘制学习曲线来扶持大家看清大数据集有未有不能缺少。

读那篇小说有感。
自己来总括一下,便于记念。

轻松梯度下落算法

永利集团304com 2

在前头介绍的线性回归模型中,大家采用梯度下落算法最优化代价函数。在那小节中,大家依旧利用线性回归模型来介绍随机梯度下落算法。

这两天追思一下,大家此前所采用的梯度下落算法是如何运算的。

永利集团304com 3

如上海体育场面所示,大家在历次换代参数θ时,算法都要对全体练习集遍历求和。我们将这种梯度下跌算法称为批量梯度下落算法(Batch
Gradient Descent
Algorithm)。若磨练集m的值比相当的大时,此时的计量代价就相比较高了。

故而,大家应用随机梯度下跌算法(Stochastic Gradient Descent
Algorithm)来缓和该难点。在自由梯度下落算法中,先将陶冶集实行随机化管理,然后每实现叁回总结就立异参数θ。

永利集团304com 4

但随意梯度下跌算法每趟迭代并不意味“正确”。由此,随机梯度下落算法或然最后都无可奈何测算出全局最优值,其值实际上为邻近全局最优值。

  • 小小二乘法(Least Square Method)适用于二维空间,用直线 y=ax+b
    对二维空间(平面)的多少举办拟合。将true
    label与直线评测出的值的错误的平方和用作最小条件来抉择参数a,b。
Mini批量梯度下跌算法

Mini批量梯度下落算法(Mini-Batch Gradient Descent
Algorithm)是在于批量下跌算法和大肆梯度下落算法之间的梯度下跌算法,其每计算b个教练实例,便更新三次参数θ。

永利集团304com 5

当中,常数b的取值范围为2~100。在如此的限量内,大家得以对教练集举行向计量化验管理。

当对教练集向量化时,Mini梯度下跌算法好于自由梯度下跌算法。因为那时的精雕细琢梯度下落算法可以完结互动运算,其运算速率相比随机梯度下跌算法是要更加快的。

永利集团304com 6

随便梯度下落收敛

在头里的学习中,大家通过绘制学习曲线来判别梯度下跌算法是或不是收敛。因而,决断随机梯度下跌算法是不是收敛,大家还是选择绘制学习曲线的秘诀。

永利集团304com 7

其深造曲线如下:

永利集团304com 8

其间,图朱木色曲线均为结尾一千个教练实例在自便梯度下跌算法中的学习曲线。第一幅图,橄榄黑曲线为学习率α相当小时,随机梯度下落算法的读书曲线;第二幅和第三幅图,黑褐曲线均为终极陆仟个教练实例在从心所欲梯度下落算法中的学习曲线;第三幅图,紫鲜绿曲线为结尾四千个教练实例在大肆梯度下落算法中的学习曲线,但其为特别曲线,我们必要调动学习率α或特色变量x;第四幅图,表明我们必要减小学习率α的值。

永利集团304com 9

是因为自由梯度下跌算法所计算出的最优值实际上为局地最优值,由此为了进一步进级算法,我们也能够令学习率α的值随着迭代次数的充实而压缩。如上海体育场所所示,比方令:

永利集团304com 10

永利集团304com,小小二乘法

  • 线性回归(Linear Regression)将小小二乘法扩充到多维空间,用超平面
    y=Wx+b 对多维空间的数额进行拟合。
    与小小二乘法类似,将true
    label与超平面评测出的值的不是的平方和用作最小条件来抉择参数Wb

永利集团304com 11

线性回归

发表评论

电子邮件地址不会被公开。 必填项已用*标注