柚子快报激活码778899分享:人工智能 机器学习笔记

http://yzkb.51969.com/

一、如何理解机器学习

对模型输入一些内容,一定会得到输出,无论输出是对是错。这些输入可以是音频,图片或者文字,例如给定一段音频,音频内容输出为“how are you”,或者给出一张照片,输出结果为猫。

因此,机器学习约等于在寻找这样一个函数f,给这个函数一个输入,它会给出相应的输出。

模型是一系列函数,意思是在这个模型中并非只有一个f,而是一簇f。给这些函数相同的输入,比如给它们一张小猫和小狗的照片,这些函数也会给出输出。

每个f都给出了输出,但是如何判断哪个是最好的输出,这就需要一个评判标准,也就是损失函数,根据这个评判标准选择出最好的一个函数f*。

综上来看,机器学习总共分为三步:

1、给出模型也就是一组f,并训练模型

2、给出评判最优的标准:计算出损失函数

3、根据标准找出最优的输出f*

 二、学习图谱——回归问题

回归问题是指:预测值为连续值的问题,分类问题指:预测值为离散值的问题。

分类问题又有二分类和多分类,例如二分类——垃圾邮件处理,多分类——文本分类。

回归分析:预测基于输入变量的连续输出,实例包括股市预测、自动驾驶控制、推荐系统

以股票预测为例,第一步先构造股票预测的模型。是一元二次的函数,线性的模型,参数是b和w,x代表的是时间,y代表当时的股票数据,通过以往的数据训练之后得到的模型来实现预测。

第二步给出评价模型优劣的标准,也就是计算损失函数L。评价模型优劣比较的是实际值与预测值的差值,差值越小说明预测值越接近实际值。预测值可能会大于、小于或者等于实际值,因此实际值与预测值的差值有一个下限,就是0——预测值=实际值。

计算损失函数时,若对实际值与预测值的差值取绝对值称之为L1,若是对实际值与预测值的差值去平方,则称为L2。

第三步选择最佳函数,从一组候选的函数 f1 ​, f2 ,… 中选择一个函数 f* ,它能够最小化损失函数 L。最佳函数 f* 是通过最小化损失函数L(f) 来选取的。换句话说,我们寻找能够使损失函数达到最小值的函数参数 w 和 b ,记作 w* 和 b* ,找到损失函数最小值的方法是梯度下降法。

梯度下降法是通过迭代地调整参数 w 和 b(即模型中的权重和偏置),我们可以逐渐接近损失函数的最小点,从而找到最佳函数 f* 。步骤如下:

1.选择初始值 w0 :从某个初始值开始,这个值可以是随机选择的。这是迭代过程的起点。

2.计算梯度 dL/dw 在 w = w0 处的值:梯度是损失函数在当前参数值 w0 处的斜率或导数。它指示了损失函数 L(w) 关于参数 w 增加最快的方向。

3.根据梯度值更新 w:

如果梯度 dL/dw​ 为负值(斜率为负),说明损失函数 L(w) 随着 w 的增加而减少,因此需要增加 w 的值,以向损失最小的方向移动(往正轴方向移动)。

如果梯度 dL/dw 为正值(斜率为正),说明损失函数 L(w) 随着w 的增加而增加,因此需要减少 w 的值,也是为了向损失最小的方向移动(往负轴方向移动)。

4.重复上述过程:不断重复计算梯度和更新 w 的过程,直到达到一个预定的停止条件,比如梯度变得非常小(接近于0),或者已经进行了足够多的迭代次数。最终找到的 w* 就是损失函数 L(w) 的最小值对应的参数值。

这个过程被可视化为一个人(在图中以卡通形象表示)沿着损失函数的曲线下山,目标是到达山谷的最低点,即损失最小的点。通过沿着梯度相反的方向(下山的方向)逐步移动,可以逐渐接近这个最低点。

用于控制在优化过程中沿着损失函数的梯度下降多远的参数是学习率(η)。具体来说,它影响参数更新的幅度。

一个合适的学习率能够保证稳定而有效地接近最小值,比如红色的路径,此为最理想的状态。

而过小的学习率会导致参数更新非常缓慢,需要更多的迭代次数才能接近最小值,比如蓝色的路径。

稍微大一点的学习率可能会导致在接近最小值时仍然有过度的震荡,比如绿色路径。

如果学习率过大,参数更新的步长也会非常大,可能导致优化过程偏离最小值,比如黄色路径。

一个线性回归模型,在训练集得到的平均误差是31.9,但在测试集上得到的平均误差为35,若想将误差降低,考虑引入更高项x^2。

 

在此规模下,训练集的平均误差降为15.4,测试集的平均误差降为18.4。继续引入更高项x^3,训练集的平均误差降为15.3,测试集的平均误差降为18.1。

 

再继续引入更高项时会发现,训练集的平均误差在减小,而训练集的平均误差开始变大,会出现这种情况是由于模型过拟合。

 

下图中的靶心代表真实函数 f,而点 f​^ 代表通过训练得到的模型的预测。偏差(Bias)是模型预测与真实值之间的误差的度量,即模型的准确性。方差(Variance)衡量的是模型预测对于给定数据的敏感度,即模型在不同数据集上训练时预测结果的波动性。

左上(低偏差、低方差):预测结果集中在真实值(靶心)附近,表示模型既准确又稳定,是理想的状态。

右上(低偏差、高方差):预测结果分散但整体上集中在真实值附近,表明模型在不同的数据集上可能有很大的预测变化,但平均来看预测是准确的。这种情况常见于过拟合:模型对训练数据非常敏感,导致在新数据上的预测非常不稳定。

左下(高偏差、低方差):所有的预测结果都集中在离真实值较远的某个点附近,表示模型的预测普遍不准确,但对于不同的数据集预测结果却很一致。这种情况通常与欠拟合相关:模型太简单,不能捕获数据的基本结构。

右下(高偏差、高方差):预测结果不仅分散,并且平均预测点离真实值也较远,这是最不理想的情况,表明模型既不准确又不稳定。

柚子快报激活码778899分享:人工智能 机器学习笔记

http://yzkb.51969.com/

参考文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: