百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

Boston House Dataset的Sklearn线性回归教程

toyiye 2024-07-06 00:17 10 浏览 0 评论

Boston Housing数据集包含有关波士顿不同房屋的信息。该机器学习数据集中有506个样本和13个特征变量。目标是使用给定的特征预测房屋价格的价值。我们将从scikit-learn本身导入这个机器学习数据集。

让我们从导入一些Python库开始。

import numpy as np
import pandas as pd
#Visualization Libraries
import seaborn as sns
import matplotlib.pyplot as plt
#To plot the graph embedded in the notebook
%matplotlib inline

现在我们需要从sklearn导入模块

#imports from sklearn library
from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error

从sklearn导入机器学习数据集

#loading the dataset direclty from sklearn
boston = datasets.load_boston()

sklearn返回类似字典的对象,属性是:' data ',要学习的数据,' target ',回归目标,' DESCR ',数据集的完整描述,' filename',波士顿的物理位置csv数据集。我们可以从以下操作中获得。

print(type(boston))
print('\n')
print(boston.keys())
print('\n')
print(boston.data.shape)
print('\n')
print(boston.feature_names)

如上所述,有4个键值['data','target','feature_names','DESCR']。数据有506行和13个特征变量。请注意,这不包括目标变量。此外,还提取列的名称。使用boston.DESCR` 可以看到有关机器学习数据集的特征和更多的详细信息

print(boston.DESCR)

在应用任何EDA或机器学习模型之前,我们必须将其转换为panda dataframe,这可以通过调用boston.data上的dataframe来实现。我们还将目标变量从boston.target添加到dataframe,Python代码如下:

bos = pd.DataFrame(boston.data, columns = boston.feature_names)
bos['PRICE'] = boston.target
print(bos.head())

数据预处理

在加载数据之后,最好查看数据中是否有缺失值。我们使用.isnull()来计算每个特征缺失值的数量

bos.isnull().sum()

正如在描述中也提到的那样,数据集中没有空值,这里我们也可以看到相同的值。

print(bos.describe())

探索性数据分析

探索性数据分析是训练机器学习模型之前非常重要的一步。在这里,我们将使用可视化来理解目标变量与其他特征的关系。

让我们首先绘制目标变量的分布。我们将使用matplotlib库中的直方图绘图函数。

sns.set(rc={'figure.figsize':(11.7,8.27)})
plt.hist(bos['PRICE'], bins=30)
plt.xlabel("House prices in $1000")
plt.show()

从图中可以看出,价格的分布是正态的,很少有异常值。大部分的房子都在20 - 24范围(in $1000 scale)

现在,我们创建一个相关矩阵来衡量变量之间的线性关系。可以通过使用来自pandas dataframe 库的corr函数来形成相关矩阵。我们将使用seaborn库中的热图函数绘制相关矩阵。

#Created a dataframe without the price col, since we need to see the correlation between the variables
bos_1 = pd.DataFrame(boston.data, columns = boston.feature_names)
correlation_matrix = bos_1.corr().round(2)
sns.heatmap(data=correlation_matrix, annot=True)

相关系数的范围从-1到1.如果该值接近1,则意味着两个变量之间存在强正相关。当它接近-1时,变量具有强负相关性。

注意

  1. 通过查看相关矩阵,我们可以看到RM与PRICE (0.7)具有强正相关性,其中LSTAT与PRICE (-0.74)具有强负相关。
  2. 选择线性回归模型的特征的一个重点是检查多重共线性。RAD,TAX的特征相关系数为0.9,这些特征对彼此强相关。这会影响机器学习模型。具有相关性-0.75的特征DIS和AGE也是如此。

但是现在我们将保留所有特征。

plt.figure(figsize=(20, 5))
features = ['LSTAT', 'RM']
target = bos['PRICE']
for i, col in enumerate(features):
 plt.subplot(1, len(features) , i+1)
 x = bos[col]
 y = target
 plt.scatter(x, y, marker='o')
 plt.title("Variation in House prices")
 plt.xlabel(col)
 plt.ylabel('"House prices in $1000"')

注意

  1. 随着RM值线性增加,价格上涨。几乎没有异常值,数据似乎上限为50。
  2. 随着LSTAT的增加,价格趋于下降。虽然它看起来并不完全沿着一条直线。

由于很难用多个特征进行可视化,我们将首先用一个变量预测房价,然后转向具有所有特征的回归。

由于您看到'RM'与房价的正相关,我们将使用此变量。

X_rooms = bos.RM
y_price = bos.PRICE
X_rooms = np.array(X_rooms).reshape(-1,1)
y_price = np.array(y_price).reshape(-1,1)
print(X_rooms.shape)
print(y_price.shape)

这些都具有[506,1]的维度

将数据拆分为训练和测试集

由于我们需要测试我们的机器学习模型,我们将数据分成训练和测试集。我们用80%的样品训练模型,并用剩余的20%进行测试。我们这样做是为了评估机器学习模型在看不见的数据上的表现。

要拆分据,我们使用scikit-learn库提供的train_test_split函数。

X_train_1, X_test_1, Y_train_1, Y_test_1 = train_test_split(X_rooms, y_price, test_size = 0.2, random_state=5)
print(X_train_1.shape)
print(X_test_1.shape)
print(Y_train_1.shape)
print(Y_test_1.shape)

训练的输出为[404,1],测试数据的大小为[102,1]。

训练和测试机器学习模型

在这里,我们使用scikit-learn的LinearRegression来训练我们的训练模型并在测试集上进行检查。并检查训练数据集上的模型性能。

reg_1 = LinearRegression()
reg_1.fit(X_train_1, Y_train_1)
y_train_predict_1 = reg_1.predict(X_train_1)
rmse = (np.sqrt(mean_squared_error(Y_train_1, y_train_predict_1)))
r2 = round(reg_1.score(X_train_1, Y_train_1),2)
print("The model performance for training set")
print("--------------------------------------")
print('RMSE is {}'.format(rmse))
print('R2 score is {}'.format(r2))
print("\n")
# model evaluation for test set
y_pred_1 = reg_1.predict(X_test_1)
rmse = (np.sqrt(mean_squared_error(Y_test_1, y_pred_1)))
r2 = round(reg_1.score(X_test_1, Y_test_1),2)
print("The model performance for training set")
print("--------------------------------------")
print("Root Mean Squared Error: {}".format(rmse))
print("R^2: {}".format(r2))
print("\n")

在输出变量上绘制模型拟合线。

prediction_space = np.linspace(min(X_rooms), max(X_rooms)).reshape(-1,1) 
plt.scatter(X_rooms,y_price)
plt.plot(prediction_space, reg_1.predict(prediction_space), color = 'black', linewidth = 3)
plt.ylabel('value of house/1000($)')
plt.xlabel('number of rooms')
plt.show()

所有变量的回归模型

现在我们将创建一个考虑数据集中所有特征的模型。该过程几乎相同,也是评估模型,但在这种情况下,在2D空间中无法实现可视化。

步骤完全相同。

X = bos.drop('PRICE', axis = 1)
y = bos['PRICE']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)
reg_all = LinearRegression()
reg_all.fit(X_train, y_train)
# model evaluation for training set
y_train_predict = reg_all.predict(X_train)
rmse = (np.sqrt(mean_squared_error(y_train, y_train_predict)))
r2 = round(reg_all.score(X_train, y_train),2)
print("The model performance for training set")
print("--------------------------------------")
print('RMSE is {}'.format(rmse))
print('R2 score is {}'.format(r2))
print("\n")
# model evaluation for test set
y_pred = reg_all.predict(X_test)
rmse = (np.sqrt(mean_squared_error(y_test, y_pred)))
r2 = round(reg_all.score(X_test, y_test),2)
print("The model performance for training set")
print("--------------------------------------")
print("Root Mean Squared Error: {}".format(rmse))
print("R^2: {}".format(r2))
print("\n")

通过绘制原始房价和预测房价之间的散点图,我们可以看到我们的模型是如何预测的。

plt.scatter(y_test, y_pred)
plt.xlabel("Actual House Prices ($1000)")
plt.ylabel("Predicted House Prices: ($1000)")
plt.xticks(range(0, int(max(y_test)),2))
plt.yticks(range(0, int(max(y_test)),2))
plt.title("Actual Prices vs Predicted prices")

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码