优势:

1、树生成的过程是透明的,方便分析; 2、不需要对变量进行转换(变量的任何单调转换都会得到相同的树); 3、变量子集的选择是自动的,因为它是分割选择的一部分; 4、树在本质上对异常值也是稳健的,因为分割的选择取决于数值的排序,而不是这些数值的绝对大小; 5、可以处理缺失的数据,而不需要估算数值或删除缺失的记录。

劣势:

1、可能会忽视变量之间的线性关系(因为树是非线性和非参的);

2、对数据的变化很敏感,即使是轻微的变化也会导致非常不同的拆分; 3、在预测器空间的横向和纵向分割能充分划分‘类别的情况下,分类树是有用的,但通过对角线或其他方法实现分类时,分类树的性能可能会低于判别分析等方法;       【针对这个劣势,提高性能的一个方法是创建新的预测变量,这些预测因子来自于现有的预测因子,它们可以捕捉预测因子之间的假设关系(类似于回归模型中的相互作用);随机森林也可以缓解这个劣势。】 4、它们需要一个大的数据集,以便构建一个好的分类器; 5、从计算的角度来看,树的生长成本相对较高,在计算每个变量的所有可能的分叉时需要进行多次排序; 6、避免过度拟合的过程中,如交叉验证或使用验证集修剪数据,也会进一步增加计算时间; 7、树会 "偏爱 "有许多潜在分裂点的预测变量。        【一个简单的解决方案是将多个类别合并成一个较小的集合,并将具有许多数值的数字预测器归类。一些特殊的算法通过使用不同的分割标准来避免这个问题,R软件包party中的条件推理树和QUEST分类树。】

 

参考:

《Data Mining for Business Analytics for Python》Chapter9  

好文链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: