使用非线性回归进行二分类

 可以是非线性函数,如:logisitic sigoid function

同理我们可以用训练线性回归模型的方法训练非线性回归,只不过原来的 

变成了  

注:这里的h是一个函数如 logisitic sigoid function

从概率的角度看问题

假设标签服从均值为  的正态分布,则其极大似然估计等同于最小化:

对于回归问题(t是连续的),正态分布假设是自然的。对于分类问题(t是离散的),正态分布假设会很奇怪。对于二分类问题的数据分布有更适合的假设 ----> 伯努利分布

为什么伯努利分布更适合二分类问题呢?

二、Logistic回归

对于一个二分类任务,一个0-1单元足以表示一个标签

尝试学习条件概率(已经将b融入,x为输入,t为标签)

我们的目标是寻找一个 值使得概率  

当x属于类别1时,取很大的值如0.99999。

当x属于类别2时,取很小的值如0.00001 (因此  取很大的值)

我们实质上是在用另一个连续函数 h 来 “回归” 一个离散的函数 (x -> t)

交叉熵误差函数(CSE)

对于伯努利分布,我们最大化条件数据似然,得到等同于最小化:

得到新的损失函数(CSE)  

我们拿出其中一项:

可见,如果t=1, 则E = -ln(h)

如果t=0, 则E = -ln(1-h)

可见河里。

训练和测试

二分类问题总结

三、SoftMax回归

我们上面讲解了一维和多维二分类,其实对于多分类,只是增加了函数个数作为维度。

如上图,比如对于一个x,三个函数的结果为1.2、4.1、1.9,那么便可根据后续操作对其进行回归或者分类。这三个函数可能是线性的,也可能是非线性的,如logistic回归。

选择均方误差(MSE)作为损失函数

对其使用最小二乘法/梯度下降法进行计算得出参数。

标签类别的表示

对于分类问题,即经过一个映射f 输出是一个离散的集合,我们有两种表示标签的方法:

对于第一种方法,类别之间有了远近的关系,因此我们一般使用第二种表示法。 每一个维度只有0-1两种结果。

我们只需看输出的某个点里哪一类代表的点更近即可进行分类。

概率角度:

我们上面提到,对于二分类任务,伯努利分布更加适合,因此我们引入了logistic回归。

而当面对多分类任务(K>2)时,我们选择 统筹 multinoulli/categorical 分布

回顾统筹 multinoulli/categorical 分布

统筹分布学习:

令  采取以下形式:

明显地, 并且 

给定一个测试输入x,对每一个k=1,2,…,K,估计 

- 当x属于第K个类时,取很大的值

- 当x属于其他类时,取很小的值

由于  是一个(连续的)概率,我们需要将它转换为符合分类的离散值。

Softmax函数

下列函数被称为Softmax函数:

如果  对于所有  都成立,则对于所有的  有  但其值小于1。如果  对于所有  都成立,则对于所有的 有  。

同样,我们最大条件似然得到交叉熵误差函数:

注:

   对于每个K,只有一个非0项(因为如(0,0,0,1,0,0))

计算梯度

向量-矩阵形式

训练和测试

随机梯度下降

在整个训练集中,最小化成恨函数的计算开销非常大,我们通常将训练集划分为较小的子集或 minibatches 然后在单个 minibatches (xi,yi)上优化成本函数,并取平均值。

引入偏置bias

到目前为止,我们已经假设 

其中 

有时偏置项可以引入到  中,参数成为{w,b}

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

存中…(img-iqbJulMA-1714146653751)] [外链图片转存中…(img-4uYEVuhG-1714146653751)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

精彩链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: