python 数据挖掘分类树（回归树）的优劣势

新媒体技术对社会的影响人工智能 2024-04-18 9 0

优势：

1、树生成的过程是透明的，方便分析； 2、不需要对变量进行转换（变量的任何单调转换都会得到相同的树）； 3、变量子集的选择是自动的，因为它是分割选择的一部分； 4、树在本质上对异常值也是稳健的，因为分割的选择取决于数值的排序，而不是这些数值的绝对大小； 5、可以处理缺失的数据，而不需要估算数值或删除缺失的记录。

劣势：

1、可能会忽视变量之间的线性关系（因为树是非线性和非参的）；

2、对数据的变化很敏感，即使是轻微的变化也会导致非常不同的拆分； 3、在预测器空间的横向和纵向分割能充分划分‘类别的情况下，分类树是有用的，但通过对角线或其他方法实现分类时，分类树的性能可能会低于判别分析等方法；【针对这个劣势，提高性能的一个方法是创建新的预测变量，这些预测因子来自于现有的预测因子，它们可以捕捉预测因子之间的假设关系（类似于回归模型中的相互作用）；随机森林也可以缓解这个劣势。】 4、它们需要一个大的数据集，以便构建一个好的分类器； 5、从计算的角度来看，树的生长成本相对较高，在计算每个变量的所有可能的分叉时需要进行多次排序； 6、避免过度拟合的过程中，如交叉验证或使用验证集修剪数据，也会进一步增加计算时间； 7、树会 "偏爱 "有许多潜在分裂点的预测变量。【一个简单的解决方案是将多个类别合并成一个较小的集合，并将具有许多数值的数字预测器归类。一些特殊的算法通过使用不同的分割标准来避免这个问题，R软件包party中的条件推理树和QUEST分类树。】

参考：

《Data Mining for Business Analytics for Python》Chapter9

好文链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

分类回归 python 数据挖掘

本文由用户于 2024-04-18 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18774939.html

金钥匙

python 数据挖掘分类树（回归树）的优劣势

深度学习人工智能机器学习项目: 使用卷积神经网络CNN进行植物叶子分类

人工智能浅谈情绪的分类合集

发表评论取消回复

金钥匙

python 数据挖掘 分类树（回归树）的优劣势

深度学习 人工智能 机器学习 项目: 使用卷积神经网络CNN进行植物叶子分类

人工智能 浅谈情绪的分类合集

相关文章

发表评论取消回复

python 数据挖掘分类树（回归树）的优劣势

深度学习人工智能机器学习项目: 使用卷积神经网络CNN进行植物叶子分类

人工智能浅谈情绪的分类合集