百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

创建岭回归器

toyiye 2024-04-27 03:47 22 浏览 0 评论

线性回归的主要问题是对异常值敏感。在真实世界的数据收集过程中,经常会遇到错误的度量结果。而线性回归使用的普通最小二乘法,其目标的使平方误差最小化。这时,由于异常值误差的绝对值很大,因此会引起问题,从而破坏整个模型。

先看下面的图。

从上图可以看到,有两个数据点是异常值,但是这个模型需要拟合所有的数据点,因此导致整个模型都错了。如果去除两个异常值,可以得到下图实线的拟合曲线。

普通最小二乘法在建模时会考虑每个数据点的影响,因此,最终模型会像上图实线那样。很显然,这个模型不是最优的。为了避免这个问题,我们引入正则化的系数作为阈值来消除异常值的影响。这个方法被称为岭回归。

接下来,我们使用python建立岭回归器。

我们先准备好一份数据文件data_singlevar.txt,相关数据文件可到https://github.com/windform/Python-Machine-Learning-Cookbook/blob/master/Chapter01/data_multivar.txt这个地址下载。

(1)加载导入数据。

#加载、导入数据

import sys

import numpy as np

filename = 'data_multivar.txt'

x = []

y = []

with open(filename, 'r') as f:

for line in f.readlines():

data = [float(i) for i in line.split(',')]

xt, yt = data[:-1], data[-1]

x.append(xt)

y.append(yt)

(2)把数据分成训练数据集与测试数据集。

num_training = int(0.8 * len(x))

num_test = len(x) - num_training

# 训练数据

x_train = np.array(x[:num_training])

y_train = np.array(y[:num_training])

# 测试数据

x_test = np.array(x[num_training:])

y_test = np.array(y[num_training:])

(3)创建一个岭回归分类器.

from sklearn import linear_model

ridge_regressor = linear_model.Ridge(alpha=0.01,fit_intercept = True, max_iter=1000)

其中,alpha参数控制回归器的复杂程度。当alpha趋于0时,岭回归器就是用普通最小二乘法的线性回归器。

(4)训练岭回归器。

ridge_regressor.fit(x_train,y_train)

(5)预测并检验回归的正确性。

y_test_pred_ridge = ridge_regressor.predict(x_test)

#计算回归准确性

import sklearn.metrics as sm

#计算平均绝对误差

print ("Mean absolute error=", round(sm.mean_absolute_error(y_test,y_test_pred_ridge),2))

#计算均方误差

print ("Mean squared error=", round(sm.mean_squared_error(y_test,y_test_pred_ridge),2))

#计算中位数绝对误差

print ("Median absolute error=", round(sm.median_absolute_error(y_test,y_test_pred_ridge),2))

#计算解释方差分

print ("Explained variance error=", round(sm.explained_variance_score(y_test,y_test_pred_ridge),2))

#计算R方得分

print ("R2 score error=", round(sm.r2_score(y_test,y_test_pred_ridge),2))

输出结果如下:

('Mean absolute error=', 3.95)

('Mean squared error=', 23.15)

('Median absolute error=', 3.69)

('Explained variance error=', 0.84)

('R2 score error=', 0.83)

相关推荐

Asterisk-ARI对通道中的DTMF事件处理

Asterisk通道中关于DTMF处理是一个非常重要的功能。通过DTMF可以实现很多的业务处理。现在我们介绍一下关于ARI对通道中的DTMF处理,我们通过自动话务员实例来说明Asterisk如何创建一...

PyQt5 初次使用(pyqt5下载官网)

本篇文章默认已安装Python3,本篇文章默认使用虚拟环境。安装pipinstallPyQt5PyQt一些图形界面开发工具QtDesigner、国际化翻译工具Liguist需要另外...

Qt开发,使用Qt for Python还是Qt C++ Qt开发,使用Qt for

Qt开发使用QtforPython还是QtC++?1.早些年写过一个PyQt5的项目,最近几年重构成QtC++了,其中有个人原因,如早期代码写得烂,...

最简单方法!!用python生成动态条形图

最近非常流行动态条形图,在B站等视频网站上,此类视频经常会有上百万的播放量,今天我们通过第三方库:bar_chart_race(0.2版本)来实现动态条形图的生成;生成的效果如图:问题:...

Asterisk通道和ARI接口的通信(aau通道数)

Asterisk通道和ARI详解什么是通道Asterisk中,通道是介于终端和Asterisk自己本身的一个通信媒介。它包含了所有相关信息传递到终端,或者从终端传递到Asterisk服务器端。这些信...

Python GUI-长链转短链(长链接转化成短链接java)

当我们要分享某一个链接给别人,或是要把某个链接放入帖子中时,如果链接太长,则会占用大量空间,而且很不美观。这时候,我们可以结束长链转短链工具进行转换。当然可以直接搜索在线的网站进行转换,但我们可以借此...

Python 的hash 函数(python的hash函数)

今天在看python的hash函数源码的时候,发现针对不同的数据类型python实现了不同的hash函数,今天简单介绍源码中提到的hash函数。(https://github.com/pyth...

8款Python GUI开源框架,谁才是你的菜?

作为Python开发者,你迟早都会用到图形用户界面来开发应用。本文千锋武汉Python培训小编将推荐一些PythonGUI框架,希望对你有所帮助。1、Python的UI开发工具包Kivy...

python适合开发桌面软件吗?(python可不可以开发桌面应用软件)

其实Python/Java/PHP都不适合用来做桌面开发,Java还是有几个比较成熟的产品的,比如大名鼎鼎的Java集成开发环境IntelliJIDEA、Eclipse就是用Java开发的,不过PH...

CryptoChat:一款功能强大的纯Python消息加密安全传输工具

关于CryptoChatCryptoChat是一款功能强大的纯Python消息加密安全传输工具,该工具专为安全研究专家、渗透测试人员和红蓝队专家设计,该工具可以完全保证数据传输中的隐私安全。该工具建立...

为什么都说Python简单,但我觉得难?

Python普遍被大家认为是编程语言中比较简单的一种,但有一位电子信息的学生说自己已经学了C语言,但仍然觉得Python挺难的,感觉有很多疑问,像迭代器、装饰器什么的……所以他提出疑问:Python真...

蓝牙电话-关联FreeSwitch中继SIP账号通过Rest接口

蓝牙电话-关联FreeSwitch中继SIP账号通过Rest接口前言上一篇章《蓝牙电话-与FreeSwitch服务器和UA坐席的通话.docx》中,我们使用开源的B2B-UA当中经典的FreeSWIT...

技术分享|Sip与WebRTC互通-SRProxy开源库讲解

SRProxy介绍目前WebRTC协议跟SIP协议互通场景主要运用在企业呼叫中心、企业内部通信、电话会议(PSTN)、智能门禁等场景,要想让WebRTC与SIP互通,要解决两个层面的...

全网第N篇SIP协议之GB28181注册 JAVA版本

鉴于网上大部分关于SIP注册服务器编写都是C/C++/python,故开此贴,JAVA实现也贴出分享GB28181定义了了基于SIP架构的视频监控互联规范,而对于多数私有协议实现的监控系统...

「linux专栏」top命令用法详解,再也不怕看不懂top了

在linux系统中,我们经常使用到的一个命令就是top,它主要是用来显示系统运行中所有的进程和进程对应资源的使用等信息,所有的用户都可以使用top命令。top命令内容量丰富,可令使用者头疼的是无法全部...

取消回复欢迎 发表评论:

请填写验证码