百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

怎样预测酒店预订需求(怎样预测酒店预订需求情况)

toyiye 2024-07-08 23:07 12 浏览 0 评论

在本文中,我想写一篇关于如何使用Python和Jupyter Notebook构建预测模型的文章。我在这个实验中使用的数据是来自Kaggle的酒店预订需求数据集。

在本文中,我将只向你展示建模阶段,仅使用Logistic回归模型,但是你可以访问完整的文档,包括在Github上进行的数据清理、预处理和探索性数据分析。

导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

import warnings
warnings.filterwarnings("ignore")

加载数据集

df = pd.read_csv('hotel_bookings.csv')
df = df.iloc[0:2999]
df.head()

下面是数据集的外观。

它有32列,它的完整版本是:

['hotel', 'is_canceled', 'lead_time', 'arrival_date_year',
       'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'adults', 'children', 'babies', 'meal',
       'country', 'market_segment', 'distribution_channel',
       'is_repeated_guest', 'previous_cancellations',
       'previous_bookings_not_canceled', 'reserved_room_type',
       'assigned_room_type', 'booking_changes', 'deposit_type', 'agent',
       'company', 'days_in_waiting_list', 'customer_type', 'adr',
       'required_car_parking_spaces', 'total_of_special_requests',
       'reservation_status', 'reservation_status_date']

根据我在Notebook上运行的信息,数据集中的NaN值可以在“country”、“agent”和“company”三列中找到

基于“lead_time”特征,我将“country”中的NaN值替换为PRT(葡萄牙),因为PRT是最常见的

我试图根据lead_time, arrival_date_month, 和arrival_date_week_number替换“agent”特征上的NaN值,但大多数都是“240”作为最常见的代理。

在我阅读了在互联网上可以找到的数据集的描述和解释后,作者将“agent”特征描述为“预订的旅行社ID”。因此,那些在数据集中拥有“agent”的人是唯一通过旅行社订购的人,而那些没有“agent”或是Nan的人,是那些没有通过旅行社订购的人。因此,我认为最好是用0来填充NaN值,而不是用常见的代理来填充它们,这样会使数据集与原始数据集有所不同。

最后但并非最不重要的是,我选择放弃整个“company”特征,因为该特性中的NaN约占数据的96%。如果我决定修改数据,它可能会对数据产生巨大的影响,并可能会影响整个数据

拆分数据集

df_new = df.copy()[['required_car_parking_spaces','lead_time','booking_changes','adr','adults', 'is_canceled']]
df_new.head()
x = df_new.drop(['is_canceled'], axis=1)
y = df_new['is_canceled']

我试着根据与目标(is_Cancelled)最显著相关的前5个特征对数据集进行拆分,它们是required_car_parking_spaces’, ’lead_time’, ’booking_changes’, ’adr’, ’adults,’ 和‘is_canceled.’

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, shuffle=False)

训练和测试分成80%和20%。

拟合模型

model_LogReg_Asli是在使用超参数调优之前使用Logistic回归的原始模型,下面是模型预测。

模型性能

如上所述,Logistic回归模型的准确率约为69.3%。

模型参数

Randomized Search CV的Logistic回归分析

model_LR_RS是采用Logistic回归和超参数调整(随机)的模型。

如上图所示,带有Randomized Search CV的Logistic回归模型的结果与没有随机搜索的结果完全相同,为69.3%。

基于网格搜索CV的Logistic回归

model_LR2_GS是采用Logistic回归和超参数调整(网格搜索)的模型。

上图显示,使用网格搜索CV的Logistic回归模型具有相同的准确率,为69.3%。

模型评估

混淆矩阵

TN为真反例,FN为假反例,FP为假正例,TP为真正例,0不被取消,1被取消。下面是模型的分类报告。

在本文中,我再次使用Logistic回归进行测试,但是你可以使用其他类型的模型,如随机森林、决策树等。在我的Github上,我也尝试过随机森林分类器,但结果非常相似。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码