数据挖掘人工智能 Logistic分类

研究对象

数据集：乳腺癌数据集 breast cancer 的原型是一组病灶造影图片，数据集提供者从每张图片中提取了30个特征，一共569个样本，其中阳性样本357，阴性样本212。数据集特征名称、目标类别、数据集大小如下数据如下：

逻辑分类概念

原理

逻辑回归（Logistic Regression）是一种用于二分类问题的分类算法。它的原理基于线性回归和逻辑函数（也称为Sigmoid函数）的组合。逻辑回归的目标是根据输入特征的线性组合来预测样本属于某个类别的概率。

假设存在一组输入特征 x = (x₁, x₂, …, xₙ)，并且每个特征都与一个权重参数 w = (w₁, w₂, …, wₙ) 相关联。将输入特征与权重参数的线性组合表示为 z = w₁x₁ + w₂x₂ + … + wₙxₙ + b，其中 b 是偏置项。将线性组合 z 输入到逻辑函数（Sigmoid函数）中，用于将线性输出转换为概率值。Sigmoid函数的公式为：σ(z) = 1 / (1 + exp(-z))。得到的概率值表示样本属于正类的概率，而 1 减去该概率则表示样本属于负类的概率。训练逻辑回归模型的目标是最大化似然函数（或最小化对数损失函数），通过调整权重参数 w 和偏置项 b 来实现。常用的方法是使用梯度下降算法或其变种来优化损失函数。

使用梯度下降法来训练w的值

正则化

Logistic分类在数据含有噪声，或者并不是线性可分时，能更快更稳定地收敛到误差最小的w上。为了避免Logistic分类造成过拟合，也可以对损失函数加以正则化。

两种常见的正则化方法是 L1 正则化（Lasso）和 L2 正则化（Ridge）： L1 （1.5）正则化通过向损失函数中添加权重参数的绝对值之和，以促使某些权重变为零。这可以用于特征选择和稀疏性推断。 L2 正则化（1.4）通过向损失函数中添加权重参数的平方和，以减小权重的大小。这可以防止过拟合和降低特征之间的共线性。

正则化项的添加会改变损失函数，并使得优化过程更倾向于选择较小的权重参数值。通过调整正则化参数，可以控制正则化的强度，从而平衡模型的拟合能力和泛化能力。在逻辑回归模型中，正则化通常通过在损失函数中添加正则化项来实现。正则化项的选择取决于具体的问题和模型需求。

逻辑分类实现

具体代码

代码分析

创建了一个 Sequential 模型对象，并向其中添加了一个全连接层。该层的输入维度由训练集 x_train 的特征数量决定，输出单元数量为 1。激活函数使用 sigmoid 函数，将输出限制在 0 到 1 的范围内。同时，应用了 L1 正则化项，正则化强度为 0.2，以减小权重的绝对值之和。设置了优化器和损失函数。使用 RMSprop 优化器，学习率为 0.0001。损失函数使用均方误差（Mean Squared Error，MSE）作为模型的损失度量。进行了20000个epoch的训练，使用梯度下降法来训练w的值。threshold 函数将预测结果根据阈值 0.5 进行二值化，得到最终的预测结果。与真实结果进行分析。

实验结果

周期数以及cost的结果如下

训练准确率和测试准确率如下

混淆矩阵

权重分析

提取了前五名和后五名进行分析在分类模型中，权值（或参数）为负数表示该特征与目标类别之间存在负相关关系。具体而言，对于线性分类模型（如硬阈值线性分类），权值的符号表示特征对预测结果的方向性影响。正权值表示该特征与目标类别之间存在正相关关系，即特征值增加时，预测结果更可能属于目标类别；负权值表示该特征与目标类别之间存在负相关关系，即特征值增加时，预测结果更可能不属于目标类别。例如，在乳腺癌诊断的情况下，如果某个特征的权值为负数，那么该特征与乳腺癌的诊断结果可能存在负相关关系。这意味着当该特征的值增加时，模型更可能将其分类为非乳腺癌样本。而正权值表示该特征与乳腺癌的诊断结果可能存在正相关关系，即当该特征的值增加时，模型更可能将其分类为乳腺癌样本。权值的绝对值大小反映了特征对预测的重要性，而权值的符号则表示了特征与目标类别之间的关系方向。因此，权值为负数并不意味着该特征对预测结果的贡献是负的，而只是表示该特征与目标类别之间存在负相关关系。

正则化分析

正则化项的添加会改变损失函数，并使得优化过程更倾向于选择较小的权重参数值。通过调整正则化参数，可以控制正则化的强度，从而平衡模型的拟合能力和泛化能力。

不适用正则化

loss会是一个恒定值，而且训练成功值和测试成功值也会大大降低，出现过拟合。出现的问题：

过拟合（Overfitting）：正则化是一种用于控制模型复杂度的技术，它有助于防止模型过度拟合训练数据。过拟合指的是模型在训练数据上表现良好，但在未见过的测试数据上表现较差。没有正则化的模型可能更容易受到训练数据中的噪声和不相关特征的影响，从而导致过拟合现象。权重过大：正则化可以对权重进行约束，防止其过大。没有正则化的模型可能会倾向于学习大的权重值，这可能导致模型对输入数据的小细节过于敏感，从而降低了模型的泛化能力。额外的特征选择：L1正则化可以促使模型中的某些权重变为零，从而实现特征选择的效果。这意味着某些不相关或冗余的特征将被忽略，减少了模型的复杂度和计算开销。没有正则化的模型可能会保留所有的特征权重，包括那些对预测目标没有显著影响的特征，从而增加了模型的复杂度。

收敛曲线

观察硬阈值线性分类和Logistic线性分类在训练集上Loss的收敛情况，绘制收敛曲线。

结论

特点与优势

简单且易于实现：逻辑回归是一种简单的线性分类模型，其基本原理易于理解和实现。它不需要复杂的计算或特殊的优化算法，因此在实际应用中非常常见。可解释性强：逻辑回归通过计算特征的权重，可以得出每个特征对分类结果的影响程度。这使得逻辑回归模型具有很强的可解释性，可以帮助我们理解哪些特征对分类起着重要作用。高效的训练和预测速度：由于逻辑回归模型的简单性，它的训练和预测速度通常很快，尤其适用于大规模数据集或实时预测的场景。可以处理线性可分和线性不可分问题：尽管逻辑回归是一种线性分类模型，但通过合适的特征工程和非线性变换，可以扩展到处理线性不可分问题。例如，可以使用多项式特征或核技巧将逻辑回归应用于非线性分类任务。可以应用于概率预测：逻辑回归模型可以输出样本属于某个类别的概率，而不仅仅是简单的分类结果。这使得逻辑回归可以用于概率预测问题，例如确定某个事件发生的概率。可以用于特征选择：逻辑回归模型中的权重可以用于评估特征的重要性。通过观察权重的大小和符号，可以判断哪些特征对分类起着关键作用，进而进行特征选择和降维。

与硬阈值方法比较

硬阈值线性分类没有定义 loss（损失函数）是因为该模型不是基于梯度下降的优化算法进行训练的，而是使用了感知机规则进行权重的更新。（感知机规则是一种简单的迭代算法，它根据样本的误分类情况来更新模型的权重，直到达到一定的迭代次数或满足停止条件为止。感知机算法的目标是使训练样本被正确分类，而不是通过最小化某个定义的损失函数来优化模型。因此，在硬阈值线性分类中，没有明确定义损失函数。）相比之下，像 logistic 回归这样的线性分类模型使用了损失函数（如交叉熵损失函数）来衡量预测结果与真实标签之间的差异，并通过最小化损失函数来优化模型的权重。这些模型使用梯度下降等优化算法来更新权重，目标是最小化损失函数的值。因此，硬阈值线性分类和基于损失函数的线性分类模型之间存在差异，导致硬阈值线性分类没有定义损失函数。

精彩内容

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

数据挖掘人工智能 Logistic分类

git版本管理：分支合并常用命令

机器学习5—分类算法之随机森林（Random Forest）

发表评论取消回复

金钥匙

数据挖掘 人工智能 Logistic分类

git版本管理：分支合并常用命令

机器学习5—分类算法之随机森林（Random Forest）

相关文章

发表评论取消回复

数据挖掘人工智能 Logistic分类