Python 数据分析实例——决策树分析

本节只讲述在Sklearn中如何使用决策树。开发环境需要安装NumPy、Pandas、Matplotlib、sklearn、pydotplus、Graphviz库。

安装Graphviz软件后，需要进入系统环境变量设置。在系统变量的Path变量中，添加Graphviz的环境变量，比如Graphviz安装在了D盘的根目录，则添加D:\Graphviz\bin。

设置完环境变量，记得要重启IDE。

sklearn使用DecisionTreeClassifier构建决策树，这个函数一共有12个参数：

参数说明如下：

·　criterion：特征选择标准，可选参数，默认是gini，可以设置为entropy。gini是基尼不纯度，它将来自集合的某种结果随机应用于某一数据项的预期误差率，是一种基于统计的思想。entropy是香农熵，是一种基于信息论的思想。sklearn把gini设为默认参数，应该是做了相应斟酌的，精度也许更高些，ID3算法使用的是entropy，CART算法使用的则是gini。

·　splitter：特征划分点选择标准，可选参数，默认是best，可以设置为random。每个节点的选择策略。best参数是根据算法选择最佳的切分特征，例如gini、entropy。random随机地在部分划分点中找局部最优的划分点。默认的best适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐random。

·　max_features：划分时考虑的最大特征数，可选参数，默认是None。寻找最佳切分时考虑的最大特征数（n_features为总共的特征数）有如下6种情况：

　若max_features是整型的数，则考虑max_features个特征。

　若max_features是浮点型的数，则考虑int(max_features * n_features)个特征。

　若max_features设为auto，则max_features=sqrt(n_features)。

　若max_features设为sqrt，则max_features=sqrt(n_features)，跟auto一样。

　若max_features设为log2，则max_features=log2(n_features)。

　若max_features设为None，则max_features=n_features，也就是所有特征都用。

一般来说，如果样本特征数不多，比如小于50，用默认的None就可以了，如果特征数非常多，可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。

·　max_depth：决策树最大深度，可选参数，默认是None。该参数是树的层数。层数就是决策树的层数。如果这个参数设置为None，那么决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。或者如果设置了min_samples_slipt参数，那么直到少于min_samples_split个样本为止。在模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布，常用的可以取值10～100。

·　min_samples_split：内部节点再划分所需的最小样本数，可选参数，默认是2。这个值限制了子树继续划分的条件。如果min_samples_split为整数，那么在切分内部节点的时候，min_samples_split作为最小的样本数，也就是说，如果已经少于min_samples_split个样本，就停止继续切分。如果min_samples_split为浮点数，min_samples_split就是一个百分比，ceil(min_samples_split * n_samples)，数是向上取整的。如果样本量不大，就不需要管这个值。如果样本量的数量级非常大，就推荐增大这个值。

·　min_weight_fraction_leaf：叶子节点最小的样本权重和，可选参数，默认是0。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，就会和兄弟节点一起被剪枝。一般来说，如果有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

·　max_leaf_nodes：最大叶子节点数，可选参数，默认是None。通过限制最大叶子节点数可以防止过拟合。如果加了限制，算法就会建立在最大叶子节点数内最优的决策树。如果特征不多，就可以不考虑这个值，但是如果特征很多，就需要加以限制，具体的值可以通过交叉验证得到。

·　class_weight：类别权重，可选参数，默认是None，也可以是字典、字典列表、balanced（保持平衡）。指定样本各类别的权重，主要是为了防止训练集某些类别的样本过多，导致训练的决策树过于偏向这些类别。类别的权重可以通过{class_label：weight}这样的格式给出，这里可以自己指定各个样本的权重，或者用“balanced”。如果使用balanced，算法就会自己计算权重，样本量少的类别所对应的样本权重会高。当然，如果样本类别分布没有明显的偏倚，就可以不管这个参数，选择默认的None。

·　random_state：可选参数，默认是None。如果是证书，random_state就会作为随机数生成器的随机数种子。如果没有设置随机数，随机出来的数就与当前系统时间有关，每个时刻都是不同的。如果设置了随机数种子，那么相同随机数种子不同时刻产生的随机数是相同的。如果是RandomState instance（随机数实例），那么random_state是随机数生成器。如果为None，那么随机数生成器使用np.random。

·　min_impurity_split：节点划分最小不纯度，可选参数，默认是1e-7。这是个阈值，该值限制了决策树的增长。如果某节点的不纯度（基尼系数、信息增益、均方差、绝对差）小于这个阈值，那么该节点不再生成子节点，即为叶子节点。

·　presort：数据是否预排序，可选参数，这个值是布尔值，默认是False（不排序）。一般来说，如果样本量少或者限制了一个深度很小的决策树，设置为True可以让划分点选择得更加快，决策树建立得更加快。如果样本量太大，反而没有什么好处。问题是样本量少的时候，速度本来就不慢。所以该值一般不考虑。

·　max_features：划分考虑最大特征数，默认为None。不输入则默认全部特征，可以选log2N、sqrt(N)、auto或者是小于1的浮点数（百分比）或整数（具体数量的特征）。如果特征特别多时，比如大于50，可以考虑选择auto来控制决策树的生成时间。

当样本数量少但是样本特征非常多的时候，决策树很容易过拟合。一般来说，样本数比特征数多一些会比较容易建立健壮的模型。如果样本数量少但是样本特征非常多，在拟合决策树模型前，推荐先做维度规约，比如主成分分析（PCA）、特征选择（LOSSO）或者独立成分分析（ICA）。这样特征的维度会大大减小，再来拟合决策树模型效果会更好。多用决策树的可视化，同时先限制决策树的深度，这样可以先观察生成的决策树里数据的初步拟合情况，再决定是否要增加深度。在训练模型时，注意观察样本的类别情况（主要指分类树），如果类别分布非常不均匀，就要考虑用class_weight来限制模型过于偏向样本多的类别。决策树的数组使用的是NumPy的float32类型，如果训练数据不是这样的格式，算法就会先做copy（复制）再运行。如果输入的样本矩阵是稀疏的，那么推荐在拟合前调用csc_matrix稀疏化，在预测前调用csr_matrix稀疏化。

【例1】

输出：

自动生成的可视化决策树被保存在当前目录下的tree.png文件中，如图1所示。可以看到，我们使用gini指数来选择最优划分属性，并且经剪枝后的决策树只用到了数据13个属性中的num、FAQ、src三个属性，已经非常简洁了，如图1所示。

图1　sklearn—生成决策树分类模型

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）