百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

sciki-learn广义线性模型之岭回归

toyiye 2024-04-27 03:47 19 浏览 0 评论

在上一篇文章中,我们了解了最小二乘法同时也了解了最小二乘法的一些使用限制。岭回归就是来解决最小二乘法所存在的哪些问题的。

一、岭回归

岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计,实质上就是一种改良的最小二乘法。我们知道,最小二乘法是通过优化

最小二乘法优化公式

而岭回归则是通过优化

岭回归优化公式

通过,上面两个公式可以发现其实岭回归只是在平方差的后面加一项。其实,这就是我们所说的正则化,常见的正则化有L1正则化和L2正则化还有将两种一起结合用。而这里是属于L2正则化,通过正则化可以防止训练的模型过拟合。过拟合就是指,模型对于训练数据有很好的判断能力,而对于未知数据的预测能力并不是很好,为什么会这样呢?因为,在训练模型的过程中,有可能将训练数据中的噪声加入到模型中了。那这和最小二乘法又有什么关系呢?在介绍最小二乘法的时候,有提到最小二乘法的方程组个数要多于未知数的个数,而且特征之间不存在共线性。共线性就是指,如果输入有多个x1、x2...,也许x1和x2之间的特征是相似的。如果,遇到上面的问题应该怎么处理呢?常用的方法有两种,第一种通过人工判断去掉共线性的特征,也就是从x1和x2中去掉一个(对于某些情况可能很难实现),第二种通过正则化的方式,来实现减少输入参数(也称为降维)。通过观察两个式子可以发现,其中α大于等于0,如果α=0时,就等价于最小二乘法。如果阿尔法大于0,下面式子中的权重必定会小于上面公式中的权重,当α到一定值的时候,权重会趋于0,从而达到去除共线性的参数。

二、scikit-learn实现岭回归

1、alpha对权重的影响

下面程序展示的是一个,不同的alpha值对权重的影响,一共有10个权重(没有截距),所以最后可以看到10条曲线,可以发现当alpha的值趋近于0的时候,对权重的影响为0,也就退化成了最小二乘法。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model
if __name__ == "__main__":
 #创建一个10*10的希尔伯特矩阵,其元素A(i,j)=1/(i+j-1),i,j分别为其行标和列标
 #希尔伯特矩阵是一个共线性的矩阵
 x = 1./(np.arange(1,11) + np.arange(0,10)[:,np.newaxis])
 #创建一个全为1的10维的矩阵
 y = np.ones(10)
 n_alphas = 200
 #创建一个有200个alpha的列表,列表的开始值是-10,结束值是-2,步长是8/200
 #列表中的元素都是10^(-10....)
 alphas = np.logspace(-10,-2,n_alphas)
 #创建一个权重列表
 coefs = []
 #遍历所有的alpha值
 for a in alphas:
 #创建模型,没有截距
 ridge = linear_model.Ridge(alpha=a,fit_intercept=False)
 #训练模型
 ridge.fit(x,y)
 #将权重的值添加到列表中
 coefs.append(ridge.coef_)
 #获取坐标
 ax = plt.gca()
 #根据alpha和权重的值绘图
 ax.plot(alphas,np.array(coefs))
 #设置数据在坐标轴上的显示比例
 ax.set_xscale("log")
 #翻转x轴
 ax.set_xlim(ax.get_xlim()[::-1])
 #设置x轴坐标的标签
 plt.xlabel("alpha")
 #设置y轴坐标的标签
 plt.ylabel("weights")
 #设置图的标题
 plt.title("Ridge coefficients as a function of the regularization")
 #设置数据在图上的显示
 plt.axis("tight")
 plt.show()

α对权重的影响

通过上面的程序我们可以发现一个问题,在使用岭回归模型的时候,我可能会选择多个alpha,然后从中选中一个最好的做为模型的alpha,那么,我们应该如何选择。scikit-learn提供了RidgeCV实现了缺省α参数的交叉验证的岭回归模型。

2、留一交叉验证(从多个α中选择一个)

from sklearn import linear_model
if __name__ == "__main__":
#创建一个岭回归模型,设置α的值
#α从0.1开始,到1.0结束,一共去10个α,每个α之间的间隔为1/10
clf = linear_model.RidgeCV(alphas=[0.1,1.0,10.0])
#训练模型
clf.fit([[0,0],[0,0],[1,1]],[0,.1,1])
#获取模型选择的α值
print(clf.alpha_) #0.1

这篇文章,主要是介绍了岭回归和岭回归的α对权重的影响,以及如何通过sciki-learn来选择合适的α,在下一篇文章中,我将会介绍如何通过岭回归模型实现一个文本的分类。

相关推荐

Asterisk-ARI对通道中的DTMF事件处理

Asterisk通道中关于DTMF处理是一个非常重要的功能。通过DTMF可以实现很多的业务处理。现在我们介绍一下关于ARI对通道中的DTMF处理,我们通过自动话务员实例来说明Asterisk如何创建一...

PyQt5 初次使用(pyqt5下载官网)

本篇文章默认已安装Python3,本篇文章默认使用虚拟环境。安装pipinstallPyQt5PyQt一些图形界面开发工具QtDesigner、国际化翻译工具Liguist需要另外...

Qt开发,使用Qt for Python还是Qt C++ Qt开发,使用Qt for

Qt开发使用QtforPython还是QtC++?1.早些年写过一个PyQt5的项目,最近几年重构成QtC++了,其中有个人原因,如早期代码写得烂,...

最简单方法!!用python生成动态条形图

最近非常流行动态条形图,在B站等视频网站上,此类视频经常会有上百万的播放量,今天我们通过第三方库:bar_chart_race(0.2版本)来实现动态条形图的生成;生成的效果如图:问题:...

Asterisk通道和ARI接口的通信(aau通道数)

Asterisk通道和ARI详解什么是通道Asterisk中,通道是介于终端和Asterisk自己本身的一个通信媒介。它包含了所有相关信息传递到终端,或者从终端传递到Asterisk服务器端。这些信...

Python GUI-长链转短链(长链接转化成短链接java)

当我们要分享某一个链接给别人,或是要把某个链接放入帖子中时,如果链接太长,则会占用大量空间,而且很不美观。这时候,我们可以结束长链转短链工具进行转换。当然可以直接搜索在线的网站进行转换,但我们可以借此...

Python 的hash 函数(python的hash函数)

今天在看python的hash函数源码的时候,发现针对不同的数据类型python实现了不同的hash函数,今天简单介绍源码中提到的hash函数。(https://github.com/pyth...

8款Python GUI开源框架,谁才是你的菜?

作为Python开发者,你迟早都会用到图形用户界面来开发应用。本文千锋武汉Python培训小编将推荐一些PythonGUI框架,希望对你有所帮助。1、Python的UI开发工具包Kivy...

python适合开发桌面软件吗?(python可不可以开发桌面应用软件)

其实Python/Java/PHP都不适合用来做桌面开发,Java还是有几个比较成熟的产品的,比如大名鼎鼎的Java集成开发环境IntelliJIDEA、Eclipse就是用Java开发的,不过PH...

CryptoChat:一款功能强大的纯Python消息加密安全传输工具

关于CryptoChatCryptoChat是一款功能强大的纯Python消息加密安全传输工具,该工具专为安全研究专家、渗透测试人员和红蓝队专家设计,该工具可以完全保证数据传输中的隐私安全。该工具建立...

为什么都说Python简单,但我觉得难?

Python普遍被大家认为是编程语言中比较简单的一种,但有一位电子信息的学生说自己已经学了C语言,但仍然觉得Python挺难的,感觉有很多疑问,像迭代器、装饰器什么的……所以他提出疑问:Python真...

蓝牙电话-关联FreeSwitch中继SIP账号通过Rest接口

蓝牙电话-关联FreeSwitch中继SIP账号通过Rest接口前言上一篇章《蓝牙电话-与FreeSwitch服务器和UA坐席的通话.docx》中,我们使用开源的B2B-UA当中经典的FreeSWIT...

技术分享|Sip与WebRTC互通-SRProxy开源库讲解

SRProxy介绍目前WebRTC协议跟SIP协议互通场景主要运用在企业呼叫中心、企业内部通信、电话会议(PSTN)、智能门禁等场景,要想让WebRTC与SIP互通,要解决两个层面的...

全网第N篇SIP协议之GB28181注册 JAVA版本

鉴于网上大部分关于SIP注册服务器编写都是C/C++/python,故开此贴,JAVA实现也贴出分享GB28181定义了了基于SIP架构的视频监控互联规范,而对于多数私有协议实现的监控系统...

「linux专栏」top命令用法详解,再也不怕看不懂top了

在linux系统中,我们经常使用到的一个命令就是top,它主要是用来显示系统运行中所有的进程和进程对应资源的使用等信息,所有的用户都可以使用top命令。top命令内容量丰富,可令使用者头疼的是无法全部...

取消回复欢迎 发表评论:

请填写验证码