百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

SKLearn分类树在合成数集上的表现

toyiye 2024-07-06 00:16 10 浏览 0 评论

小伙伴们大家好~o( ̄▽ ̄)ブ,我是菜菜,这里是我的sklearn课堂

我的开发环境是Jupyter lab,所用的库和版本大家参考:

Python 3.7.1(你的版本至少要3.4以上

Scikit-learn 0.20.0 (你的版本至少要0.20

Graphviz 0.8.4 (没有画不出决策树哦,安装代码conda install python-graphviz

Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

在这里,我们使用SKlearn构建三种不同分布的数据,然后在这些数据集上测试一下决策树的效果,让大家更好地理解决策树。下图就是三种表现结果,后面会详细介绍实现过程~

1. 导入需要的库

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.tree import DecisionTreeClassifier

2. 生成三种数据集

我们先从sklearn自带的数据库中生成三种类型的数据集:1)月亮型数据,2)环形数据,3)二分型数据

#make_classification库生成随机的二分型数据
X, y = make_classification(n_samples=100, #生成100个样本
 n_features=2, #包含2个特征,即生成二维数据
 n_redundant=0, #添加冗余特征0个
 n_informative=2, #包含信息的特征是2个
 random_state=1, #随机模式1
 n_clusters_per_class=1 #每个簇内包含的标签类别有1个
 )

在这里可以查看一下X和y,其中X是100行带有两个2特征的数据,y是二分类标签

也可以画出散点图来观察一下X中特征的分布

plt.scatter(X[:,0],X[:,1]); 

从图上可以看出,生成的二分型数据的两个簇离彼此很远,这样不利于我们测试分类器的效果,因此我们使用np生成随机数组,通过让已经生成的二分型数据点加减0~1之间的随机数,使数据分布变得更散更稀疏。

【注意】这个过程只能够运行一次,因为多次运行之后X会变得非常稀疏,两个簇的数据会混合在一起,分类器的效应会继续下降

rng = np.random.RandomState(2) #生成一种随机模式
X += 2 * rng.uniform(size=X.shape) #加减0~1之间的随机数
linearly_separable = (X, y) 

生成了新的X,依然可以画散点图来观察一下特征的分布

plt.scatter(X[:,0],X[:,1]);
#用make_moons创建月亮型数据,make_circles创建环形数据,并将三组数据打包起来放在列表datasets中
datasets = [make_moons(noise=0.3, random_state=0),
 make_circles(noise=0.2, factor=0.5, random_state=1),
 linearly_separable]

3. 画出三种数据集和三棵决策树的分类效应图像

#创建画布,宽高比为6*9
figure = plt.figure(figsize=(6, 9))
#设置用来安排图像显示位置的全局变量i
i = 1
?
#开始迭代数据,对datasets中的数据进行for循环
?
for ds_index, ds in enumerate(datasets):
 
 #对X中的数据进行标准化处理,然后分训练集和测试集
 X, y = ds
 X = StandardScaler().fit_transform(X) 
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4, random_state=42)
 
 #找出数据集中两个特征的最大值和最小值,让最大值+0.5,最小值-0.5,创造一个比两个特征的区间本身更大一点的区间
 x1_min, x1_max = X[:, 0].min() - .5, X[:, 0].max() + .5
 x2_min, x2_max = X[:, 1].min() - .5, X[:, 1].max() + .5
 
 #用特征向量生成网格数据,网格数据,其实就相当于坐标轴上无数个点
 #函数np.arange在给定的两个数之间返回均匀间隔的值,0.2为步长
 #函数meshgrid用以生成网格数据,能够将两个一维数组生成两个二维矩阵。
 #如果第一个数组是narray,维度是n,第二个参数是marray,维度是m。那么生成的第一个二维数组是以narray为行,m行的矩阵,而第二个二维数组是以marray的转置为列,n列的矩阵
 #生成的网格数据,是用来绘制决策边界的,因为绘制决策边界的函数contourf要求输入的两个特征都必须是二维的
 array1,array2 = np.meshgrid(np.arange(x1_min, x1_max, 0.2),
 np.arange(x2_min, x2_max, 0.2))
?
 #接下来生成彩色画布
 #用ListedColormap为画布创建颜色,#FF0000正红,#0000FF正蓝
 cm = plt.cm.RdBu
 cm_bright = ListedColormap(['#FF0000', '#0000FF'])
 
 #在画布上加上一个子图,数据为len(datasets)行,2列,放在位置i上
 ax = plt.subplot(len(datasets), 2, i)
 
 #到这里为止,已经生成了0~1之间的坐标系3个了,接下来为我们的坐标系放上标题
 #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件
 if ds_index == 0:
 ax.set_title("Input data")
 
 #将数据集的分布放到我们的坐标系上
 #先放训练集
 ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, 
 cmap=cm_bright,edgecolors='k')
 #放测试集
 ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, 
 cmap=cm_bright, alpha=0.6,edgecolors='k')
 
 #为图设置坐标轴的最大值和最小值,并设定没有坐标轴
 ax.set_xlim(array1.min(), array1.max())
 ax.set_ylim(array2.min(), array2.max())
 ax.set_xticks(())
 ax.set_yticks(())
 
 #每次循环之后,改变i的取值让图每次位列不同的位置
 i += 1
 
 #至此为止,数据集本身的图像已经布置完毕,运行以上的代码,可以看见三个已经处理好的数据集
 
 #############################从这里开始是决策树模型##########################
 
 #迭代决策树,首先用subplot增加子图,subplot(行,列,索引)这样的结构,并使用索引i定义图的位置
 #在这里,len(datasets)其实就是3,2是两列
 #在函数最开始,我们定义了i=1,并且在上边建立数据集的图像的时候,已经让i+1,所以i在每次循环中的取值是2,4,6
 ax = plt.subplot(len(datasets),2,i)
 
 #决策树的建模过程:实例化 → fit训练 → score接口得到预测的准确率
 clf = DecisionTreeClassifier(max_depth=5)
 clf.fit(X_train, y_train)
 score = clf.score(X_test, y_test)
 
 #绘制决策边界,为此,我们将为网格中的每个点指定一种颜色[x1_min,x1_max] x [x2_min,x2_max]
 #分类树的接口,predict_proba,返回每一个输入的数据点所对应的标签类概率
 #类概率是数据点所在的叶节点中相同类的样本数量/叶节点中的样本总数量
 #由于决策树在训练的时候导入的训练集X_train里面包含两个特征,所以我们在计算类概率的时候,也必须导入结构相同的数组,即是说,必须有两个特征
 #ravel()能够将一个多维数组转换成一维数组
 #np.c_是能够将两个数组组合起来的函数
 #在这里,我们先将两个网格数据降维降维成一维数组,再将两个数组链接变成含有两个特征的数据,再带入决策树模型,生成的Z包含数据的索引和每个样本点对应的类概率,再切片,且出类概率
 Z = clf.predict_proba(np.c_[array1.ravel(),array2.ravel()])[:, 1]
 
 #np.c_[np.array([1,2,3]), np.array([4,5,6])]
 
 #将返回的类概率作为数据,放到contourf里面绘制去绘制轮廓
 Z = Z.reshape(array1.shape)
 ax.contourf(array1, array2, Z, cmap=cm, alpha=.8)
 
 #将数据集的分布放到我们的坐标系上
 # 将训练集放到图中去
 ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
 edgecolors='k')
 # 将测试集放到图中去
 ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
 edgecolors='k', alpha=0.6)
 
 #为图设置坐标轴的最大值和最小值
 ax.set_xlim(array1.min(), array1.max())
 ax.set_ylim(array2.min(), array2.max())
 #设定坐标轴不显示标尺也不显示数字
 ax.set_xticks(())
 ax.set_yticks(())
 
 #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件
 if ds_index == 0:
 ax.set_title("Decision Tree")
 
 #写在右下角的数字 
 ax.text(array1.max() - .3, array2.min() + .3, ('{:.1f}%'.format(score*100)),
 size=15, horizontalalignment='right')
 
 #让i继续加一
 i += 1
?
plt.tight_layout()
plt.show()

运行的结果如下所示:

从图上来看,每一条线都是决策树在二维平面上画出的一条决策边界,每当决策树分枝一次,就有一条线出现。当数据的维度更高的时候,这条决策边界就会由线变成面,甚至变成我们想象不出的多维图形。

同时,很容易看得出,分类树天生不擅长环形数据。每个模型都有自己的决策上限,所以一个怎样调整都无法提升表现的可能性也是有的。当一个模型怎么调整都不行的时候,我们可以选择换其他的模型使用,不要在一棵树上吊死。顺便一说,最擅长月亮型数据的是最近邻算法,RBF支持向量机和高斯过程;最擅长环形数据的是最近邻算法和高斯过程;最擅长对半分的数据的是朴素贝叶斯,神经网络和随机森林。

相关推荐

如何用 coco 数据集训练 Detectron2 模型?

随着最新的Pythorc1.3版本的发布,下一代完全重写了它以前的目标检测框架,新的目标检测框架被称为Detectron2。本教程将通过使用自定义coco数据集训练实例分割模型,帮助你开始使...

CICD联动阿里云容器服务Kubernetes实践之Bamboo篇

本文档以构建一个Java软件项目并部署到阿里云容器服务的Kubernetes集群为例说明如何使用Bamboo在阿里云Kubernetes服务上运行RemoteAgents并在agents上...

Open3D-ML点云语义分割实验【RandLA-Net】

作为点云Open3D-ML实验的一部分,我撰写了文章解释如何使用Tensorflow和PyTorch支持安装此库。为了测试安装,我解释了如何运行一个简单的Python脚本来可视化名为...

清理系统不用第三方工具(系统自带清理软件效果好不?)

清理优化系统一定要借助于优化工具吗?其实,手动优化系统也没有那么神秘,掌握了方法和技巧,系统清理也是一件简单和随心的事。一方面要为每一个可能产生累赘的文件找到清理的方法,另一方面要寻找能够提高工作效率...

【信创】联想开先终端开机不显示grub界面的修改方法

原文链接:【信创】联想开先终端开机不显示grub界面的修改方法...

如意玲珑成熟度再提升,三大发行版支持教程来啦!

前期,我们已分别发布如意玲珑在deepinV23与UOSV20、openEuler24.03发行版的操作指南,本文,我们将为大家详细介绍Ubuntu24.04、Debian12、op...

118种常见的多媒体文件格式(英文简写)

MP4[?mpi?f??]-MPEG-4Part14(MPEG-4第14部分)AVI[e?vi??a?]-AudioVideoInterleave(音视频交错)MOV[m...

密码丢了急上火?码住7种console密码紧急恢复方式!

身为攻城狮的你,...

CSGO丨CS2的cfg指令代码分享(csgo自己的cfg在哪里?config文件位置在哪?)

?...

使用open SSL生成局域网IP地址证书

某些特殊情况下,用户内网访问多可文档管理系统时需要启用SSL传输加密功能,但只有IP,没有域名和证书。这种情况下多可提供了一种免费可行的方式,通过openSSL生成免费证书。此方法生成证书浏览器会提示...

Python中加载配置文件(python怎么加载程序包)

我们在做开发的时候经常要使用配置文件,那么配置文件的加载就需要我们提前考虑,再不使用任何框架的情况下,我们通常会有两种解决办法:完整加载将所有配置信息一次性写入单一配置文件.部分加载将常用配置信息写...

python开发项目,不得不了解的.cfg配置文件

安装软件时,经常会见到后缀为.cfg、.ini的文件,一般我们不用管,只要不删就行。因为这些是程序安装、运行时需要用到的配置文件。但对开发者来说,这种文件是怎么回事就必须搞清了。本文从.cfg文件的创...

瑞芯微RK3568鸿蒙开发板OpenHarmony系统修改cfg文件权限方法

本文适用OpenHarmony开源鸿蒙系统,本次使用的是开源鸿蒙主板,搭载瑞芯微RK3568芯片。深圳触觉智能专注研发生产OpenHarmony开源鸿蒙硬件,包括核心板、开发板、嵌入式主板,工控整机等...

Python9:图像风格迁移-使用阿里的接口

先不多说,直接上结果图。#!/usr/bin/envpython#coding=utf-8importosfromaliyunsdkcore.clientimportAcsClient...

Python带你打造个性化的图片文字识别

我们的目标:从CSV文件读取用户的文件信息,并将文件名称修改为姓名格式的中文名称,进行规范资料整理,从而实现快速对多个文件进行重命名。最终效果:将原来无规律的文件名重命名为以姓名为名称的文件。技术点:...

取消回复欢迎 发表评论:

请填写验证码