如何训练机器学习,损失和损失函数是什么
Admin 2022-07-18 群英技术资讯 351 次浏览
一句话理解机器学习一般训练过程 :通过有标签样本来调整(学习)并确定所有权重Weights和偏差Bias的理想值。
训练的目标:最小化损失函数
(损失函数下面马上会介绍)
机器学习算法在训练过程中,做的就是:检查多个样本并尝试找出可最大限度地减少损失的模型;目标就是将损失(Loss)最小化
上图就是一般模型训练的一般过程(试错过程),其中
例如:使用梯度下降法,因为通过计算整个数据集中w每个可能值的损失函数来找到收敛点这种方法效率太低。所以通过梯度能找到损失更小的方向,并迭代。
举个TensorFlow代码栗子,对应上面公式在代码中定义该线性模型:
y_output = tf.multiply(w,x) + b
假设该模型应用于房价预测,那么y_output为预测的房价,x为输入的房子特征值(如房子位置、面积、楼层等)
损失是一个数值 表示对于单个样本而言模型预测的准确程度。
如果模型的预测完全准确,则损失为零,否则损失会较大。
训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。
损失函数的目标:准确找到预测值和真实值的差距
如图 红色箭头表示损失,蓝线表示预测。明显左侧模型的损失较大;右侧模型的损失较小
要确定loss,模型必须定义损失函数 loss function。例如,线性回归模型通常将均方误差用作损失函数,而逻辑回归模型则使用对数损失函数。
正确的损失函数,可以起到让预测值一直逼近真实值的效果,当预测值和真实值相等时,loss值最小。
举个TensorFlow代码栗子,在代码中定义一个损失loss_price 表示房价预测时的loss,使用最小二乘法作为损失函数:
loss_price = tr.reduce_sum(tf.pow(y_real - y_output), 2)
这里,y_real是代表真实值,y_output代表模型输出值(既上文公式的y' ),因为有的时候这俩差值会是负数,所以会对误差开平方,具体可以搜索下最小二乘法公式
理解梯度下降就好比在山顶以最快速度下山:
好比道士下山,如何在一座山顶上,找到最短的路径下山,并且确定最短路径的方向
原理上就是凸形问题求最优解,因为只有一个最低点;即只存在一个斜率正好为 0 的位置。这个最小值就是损失函数收敛之处。
通过计算整个数据集中 每个可能值的损失函数来找到收敛点这种方法效率太低。我们来研究一种更好的机制,这种机制在机器学习领域非常热门,称为梯度下降法。
梯度下降法的目标:寻找梯度下降最快的那个方向
梯度下降法的第一个阶段是为 选择一个起始值(起点)。起点并不重要;因此很多算法就直接将 设为 0 或随机选择一个值。下图显示的是我们选择了一个稍大于 0 的起点:
然后,梯度下降法算法会计算损失曲线在起点处的梯度。简而言之,梯度是偏导数的矢量;它可以让您了解哪个方向距离目标“更近”或“更远”。请注意,损失相对于单个权重的梯度(如图 所示)就等于导数。
请注意,梯度是一个矢量,因此具有以下两个特征:
梯度始终指向损失函数中增长最为迅猛的方向。梯度下降法算法会沿着负梯度的方向走一步,以便尽快降低损失
为了确定损失函数曲线上的下一个点,梯度下降法算法会将梯度大小的一部分与起点相加
然后,梯度下降法会重复此过程,逐渐接近最低点。(找到了方向)
好比上面下山问题中,每次下山的步长。
因为梯度矢量具有方向和大小,梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置。这是超参数,用来调整AI算法速率
例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。
超参数是编程人员在机器学习算法中用于调整的旋钮。大多数机器学习编程人员会花费相当多的时间来调整学习速率。如果您选择的学习速率过小,就会花费太长的学习时间:
继续上面的栗子,实现梯度下降代码为:
train_step = tf.train.GradientDescentOptimizer(0.025).minimize(loss_price)
这里设置梯度下降学习率为0.025, GradientDescentOptimizer()就是使用的随机梯度下降算法, 而loss_price是由上面的损失函数获得的loss
至此有了模型、损失函数以及梯度下降函数,就可以进行模型训练阶段了:
Session = tf.Session() Session.run(init) for _ in range(1000): Session.run(train_step, feed_dict={x:x_data, y:y_data})
这里可以通过for设置固定的training 次数,也可以设置条件为损失函数的值低于设定值,
x_data y_data则为训练所用真实数据,x y 是输入输出的placeholder(代码详情参见TensorFlow API文档)
BP(BackPropagation)网络的训练,是反向传播算法的过程,是由数据信息的正向传播和误差Error的反向传播两个过程组成。
反向传播算法是神经网络算法的核心,其数学原理是:链式求导法则
输入层通过接收输入数据,传递给中间层(各隐藏层)神经元,每一个神经元进行数据处理变换,然后通过最后一个隐藏层传递到输出层对外输出。
正向传播后通过真实值和输出值得到误差Error,当Error大于设定值,既实际输出与期望输出差别过大时,进入误差反向传播阶段:
Error通过输出层,按照误差梯度下降的方式,如上面提到的随机梯度下降法SGD,反向修正各层参数(如Weights),向隐藏层、输入层逐层反转。
通过不断的正向、反向传播,直到输出的误差减少到预定值,或到达最大训练次数。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
今天给大家分享的是关于python如何实现udp文件传输的功能,在Python中可以利用socket来实现文件传输的功能,那么具体怎样做呢?下文有示例代码供大家参考,感兴趣的朋友可以了解看看。
这篇文章主要和大家分享一个有意思的模型:RealBasicVSR。本文将利用这个模型制作一个图像超分处理工具,感兴趣的小伙伴可以跟随小编一起学习一下
这篇文章给大家分享的是怎样用python写一个自动生成日历功能的内容。小编觉得挺实用的,因此分享给大家做个参考,接下来一起跟随小编看看吧。
Python内置函数-filter()函数。filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。 该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
这篇文章给大家分享的是关于python实现德洛内三角剖分的内容,下文有实现代码以及生长算法实现点集的三角剖分的相关内容,感兴趣的朋友可以参考了解看看,希望大家阅读完这篇文章能有所收获。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008