百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

教程丨机器学习算法从头开始构建逻辑回归模型

toyiye 2024-04-27 03:47 18 浏览 0 评论

郭一璞 编译自 Hacher Noon

原作者 Rohith Gandhi

量子位 报道 | 公众号 QbitAI

逻辑回归是继线性回归之后最著名的机器学习算法。

在很多方面,线性回归和逻辑回归是相似的,不过最大的区别在于它们的用途,线性回归算法用于预测,但逻辑回归用于分类任务。

分类任务很常见,比如把电子邮件分为垃圾邮件和非垃圾邮件、把肿瘤分为恶性或者良性、把网站分为危险站点或正常站点,机器学习算法就可以完成这些任务。

其中,逻辑回归算法就是一种分类算法,简单粗暴,但有用。

现在,开始深入研究逻辑回归。

Sigmoid函数(Logistic函数)

逻辑回归算法使用具有独立预测因子的线性方程来预测,预测值可以是从负无穷到正无穷之间的任何值。

我们需要让算法的输出为类变量,比如用0表示非,用1表示是。

因此,我们将线性方程的输出压缩到[0,1]的范围内。

为了压缩0和1之间的预测值,我们使用sigmoid函数:

线性方程和sigmoid函数


压缩输出-h

我们取线性方程的输出(z)并给出返回压缩值h的函数g(x),h将位于0到1的范围内。为了理解sigmoid函数如何压缩,我们画出了sigmoid函数的图形:

sigmoid函数图形

如图可见,sigmoid函数当x>0时,y逐渐向1靠近;当x<0时,y逐渐向0靠近。

成本函数(cost function)

由于我们试图预测类别值,不能使用和线性回归算法中相同的成本函数。

所以,我们使用损失函数的对数来计算错误分类的成本。

考虑到计算上面这个函数的梯度实在太难了,,我们把它写成下面这个样子:

计算梯度

我们取相对于每个参数(θ_0,θ_1,…)的成本函数的偏导数来获得梯度,有了这些梯度,我们可以更新θ_0,θ_1,…的值。

现在,开始召唤微积分大法:

梯度

如果看懂了,那你的微积分学得棒棒的。

不过,如果微积分大法召唤失败……就直接照着上面的式子做吧。

写代码

现在方程终于搞定了,开始写代码。

我们用NumPy来从头构建模型,用IRIS(鸢尾花)数据集来训练和测试算法。

 1import pandas as pd23df = pd.read_csv('/Users/rohith/Documents/Datasets/Iris_dataset/iris.csv') ## Load data4df = df.drop(['Id'],axis=1)5rows = list(range(100,150))6df = df.drop(df.index[rows]) ## Drop the rows with target values Iris-virginica7Y = []8target = df['Species']9for val in target:10 if(val == 'Iris-setosa'):11 Y.append(0)12 else:13 Y.append(1)14df = df.drop(['Species'],axis=1)15X = df.values.tolist()

我们用pandas来加载数据。

IRIS数据集有三个目标值,分别是弗吉尼亚鸢尾、山鸢尾、变色鸢尾。但是因为要实现的是二进制的分类算法,所以此处先把弗吉尼亚鸢尾剔除。

变色鸢尾(左)和山鸢尾(右),图源百度百科

现在,只剩下两个目标值用来分类了。

之后,从数据集中提取独立变量和因变量,现在可以继续准备训练集和测试集了。

 1from sklearn.utils import shuffle2from sklearn.cross_validation import train_test_split3import numpy as np45X, Y = shuffle(X,Y)67x_train = []8y_train = []9x_test = []10y_test = []1112x_train, x_test, y_train, y_test = train_test_split(X, Y, train_size=0.9)1314x_train = np.array(x_train)15y_train = np.array(y_train)16x_test = np.array(x_test)17y_test = np.array(y_test)1819x_1 = x_train[:,0]20x_2 = x_train[:,1]21x_3 = x_train[:,2]22x_4 = x_train[:,3]2324x_1 = np.array(x_1)25x_2 = np.array(x_2)26x_3 = np.array(x_3)27x_4 = np.array(x_4)2829x_1 = x_1.reshape(90,1)30x_2 = x_2.reshape(90,1)31x_3 = x_3.reshape(90,1)32x_4 = x_4.reshape(90,1)3334y_train = y_train.reshape(90,1)

我们清洗了数据,并且把它们分为了训练集和测试集,训练集中有90个数据,测试集中有10个数据。由于数据集中有四个预测因子,所以我们提取每个特征并将其存储在各个向量中。

 1## Logistic Regression2import numpy as np34def sigmoid(x):5 return (1 / (1 + np.exp(-x)))67m = 908alpha = 0.0001910theta_0 = np.zeros((m,1))11theta_1 = np.zeros((m,1))12theta_2 = np.zeros((m,1))13theta_3 = np.zeros((m,1))14theta_4 = np.zeros((m,1))151617epochs = 018cost_func = []19while(epochs < 10000):20 y = theta_0 + theta_1 * x_1 + theta_2 * x_2 + theta_3 * x_3 + theta_4 * x_421 y = sigmoid(y)2223 cost = (- np.dot(np.transpose(y_train),np.log(y)) - np.dot(np.transpose(1-y_train),np.log(1-y)))/m2425 theta_0_grad = np.dot(np.ones((1,m)),y-y_train)/m26 theta_1_grad = np.dot(np.transpose(x_1),y-y_train)/m27 theta_2_grad = np.dot(np.transpose(x_2),y-y_train)/m28 theta_3_grad = np.dot(np.transpose(x_3),y-y_train)/m29 theta_4_grad = np.dot(np.transpose(x_4),y-y_train)/m3031 theta_0 = theta_0 - alpha * theta_0_grad32 theta_1 = theta_1 - alpha * theta_1_grad33 theta_2 = theta_2 - alpha * theta_2_grad34 theta_3 = theta_3 - alpha * theta_3_grad35 theta_4 = theta_4 - alpha * theta_4_grad3637 cost_func.append(cost)38 epochs += 1

我们用0来初始化参数(θ_0,θ_1,…)。当我们使用线性方程来计算这些值时,这些值将被压缩到0到1的范围内。

然后计算成本。

可以用成本函数计算每个参数的梯度,并通过将梯度与α相乘来更新它们的值,α是算法的学习率。一万次之后,我们的算法会收敛到最小值。

现在,终于可以找出那10个测试集的数据,开始测试了。

 1from sklearn.metrics import accuracy_score23test_x_1 = x_test[:,0]4test_x_2 = x_test[:,1]5test_x_3 = x_test[:,2]6test_x_4 = x_test[:,3]78test_x_1 = np.array(test_x_1)9test_x_2 = np.array(test_x_2)10test_x_3 = np.array(test_x_3)11test_x_4 = np.array(test_x_4)1213test_x_1 = test_x_1.reshape(10,1)14test_x_2 = test_x_2.reshape(10,1)15test_x_3 = test_x_3.reshape(10,1)16test_x_4 = test_x_4.reshape(10,1)1718index = list(range(10,90))1920theta_0 = np.delete(theta_0, index)21theta_1 = np.delete(theta_1, index)22theta_2 = np.delete(theta_2, index)23theta_3 = np.delete(theta_3, index)24theta_4 = np.delete(theta_4, index)2526theta_0 = theta_0.reshape(10,1)27theta_1 = theta_1.reshape(10,1)28theta_2 = theta_2.reshape(10,1)29theta_3 = theta_3.reshape(10,1)30theta_4 = theta_4.reshape(10,1)3132y_pred = theta_0 + theta_1 * test_x_1 + theta_2 * test_x_2 + theta_3 * test_x_3 + theta_4 * test_x_433y_pred = sigmoid(y_pred)3435new_y_pred =[]36for val in y_pred:37 if(val >= 0.5):38 new_y_pred.append(1)39 else:40 new_y_pred.append(0)4142print(accuracy_score(y_test,new_y_pred))

提前准备好的测试集和训练集的特征十分相似,但是因为测试示例的数量只有10个,所以我们把θ_0,θ_1,θ_2,θ_3和θ_4的值从90×1剪切到10×1,计算了测试类别并检查模型的精确度。

哎呦不错

完美!模型准确度100%!

虽然逻辑回归算法非常强大,但我们使用的数据集并不是很复杂,所以我们的模型能够达到100%的准确度。

我们还可以画出一万次训练的成本函数图:

1import matplotlib.pyplot as plt23cost_func = np.array(cost_func)4cost_func = cost_func.reshape(10000,1)5plt.plot(range(len(cost_func)),cost_func)

您的成本函数请查收

不过,现在你可能觉得这个算法的代码太多了。为了缩短代码行数,我们用上了scikit学习库。scikit学习库有一个内置的逻辑回归类别,我们可以直接接入使用。

1from sklearn.metrics import accuracy_score2from sklearn.linear_model import LogisticRegression34clf = LogisticRegression()5clf.fit(x_train,y_train)6y_pred = clf.predict(x_test)7print(accuracy_score(y_test,y_pred))

看,代码已经被缩减到10行以内了。用scikit学习库,我们的模型准确率依然100%。

原文链接:

https://hackernoon.com/introduction-to-machine-learning-algorithms-logistic-regression-cbdd82d81a36

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码