百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

用机器学习来提升你的用户增长:第六步,预测销量

toyiye 2024-07-15 01:10 9 浏览 0 评论

作者:Bar?? KaramanFollow

编译:ronghuaiyang

正文共:6867 字 16 图

预计阅读时间:20 分钟

导读

预测销量有很多的用处,这是一个时间序列的预测问题,我们可以使用传统的时序回归的方法,也可以使用机器学习,深度学习的方法,一起来了解一下。

前文回顾:

用机器学习来提升你的用户增长:第一步,了解你的目标

用机器学习来提升你的用户增长:第二步,客户分群

用机器学习来提升你的用户增长:第三步,预测客户的终生价值

用机器学习来提升你的用户增长:第四步,客户流失预测

用机器学习来提升你的用户增长:第五步,预测客户的下一个购买日

第六部分: 预测销量

在本节之前,几乎所有的预测模型都是基于客户层面的(例如客户流失预测、下一个购买日等)。但有时候,我们从全局的角度看一看,也是有用的。通过考虑我们在客户方面的所做的努力,我们该如何影响销售?

时间序列预测是机器学习的主要组成部分之一。文献中有许多方法可以实现这一目的,如自回归综合移动平均(ARIMA)、季节自回归综合移动平均(SARIMA)、向量自回归(VAR)等。

在这篇文章中,我们将关注长短时记忆(LSTM)方法,如果你想使用深度学习,这是一种非常流行的方法。我们将在我们的项目中使用Keras来实现LSTM。

最后,了解未来的销售情况对我们的业务有什么帮助

首先,它是一个基准。如果我们的战略没有改变的话,我们可以把它作为我们要达到的业务水平来使用。此外,我们可以在这个基准上计算新行为导致的增量值。

其次,它可以用于规划。我们可以通过预测来计划我们的需求和供应行为。这有助于找到更多的投资方向。

最后但并非最不重要的是,它是规划预算和目标的优秀指南。

现在我们开始写代码并建立我们的第一个深度学习模型。

我们模型的实现有3个步骤:

  • 数据整理
  • 数据变换,使其稳定并定义监督信号
  • 建立LSTM模型并评估

数据整理

在本例中,我们使用来自Kaggle竞赛中的数据集。它包含每个商店和物品的每日销售额。

像往常一样,我们导入所需的库,并从CSV导入我们的数据:

from datetime import datetime, timedelta,date
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from __future__ import division

import warnings
warnings.filterwarnings("ignore")

import plotly.plotly as py
import plotly.offline as pyoff
import plotly.graph_objs as go

#import Keras
import keras
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import Adam 
from keras.callbacks import EarlyStopping
from keras.utils import np_utils
from keras.layers import LSTM
from sklearn.model_selection import KFold, cross_val_score, train_test_split

#initiate plotly
pyoff.init_notebook_mode()

#read the data in csv
df_sales = pd.read_csv('sales_data.csv')

#convert date field from string to datetime
df_sales['date'] = pd.to_datetime(df_sales['date'])

#show first 10 rows
df_sales.head(10)

我们的数据看起来如下:

我们的任务是预测每月的总销售额。我们需要按月汇总数据并汇总sales列。

#represent month in date field as its first day
df_sales['date'] = df_sales['date'].dt.year.astype('str') + '-' + df_sales['date'].dt.month.astype('str') + '-01'
df_sales['date'] = pd.to_datetime(df_sales['date'])

#groupby date and sum the sales
df_sales = df_sales.groupby('date').sales.sum().reset_index()

在应用了上面的代码后,df_sales现在显示的是我们需要的总销售额:

数据变换

为了使我们的预测模型更容易和更准确,我们将进行以下变换:

  • 如果数据不平稳,我们将把数据转换成平稳的
  • 转换成有监督的适合LSTM模型的时间序列特征集合
  • 按比例缩放数据

首先,我们如何检查数据是否是稳定的?我们把它画出来看看:

#plot monthly sales
plot_data = [
    go.Scatter(
        x=df_sales['date'],
        y=df_sales['sales'],
    )
]

plot_layout = go.Layout(
        title='Montly Sales'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

每月的销售额图:

很明显,它不是稳定的,在过去几个月里有上升的趋势。一种方法是获得当前月的销售与前一个月的差异,并在此基础上建立模型:

#create a new dataframe to model the difference
df_diff = df_sales.copy()

#add previous sales to the next row
df_diff['prev_sales'] = df_diff['sales'].shift(1)

#drop the null values and calculate the difference
df_diff = df_diff.dropna()
df_diff['diff'] = (df_diff['sales'] - df_diff['prev_sales'])
df_diff.head(10)

现在,我们有了所需要的dataframe来建模这个差别:

我们把这个差别画出来,然后看看是否稳定:

#plot sales diff
plot_data = [
    go.Scatter(
        x=df_diff['date'],
        y=df_diff['diff'],
    )
]plot_layout = go.Layout(
        title='Montly Sales Diff'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

完美!现在我们可以开始构建我们的特征集了。我们需要使用以前的月销售数据来预测下一个月。每个模型的回溯区间可能不同。对于这个例子,我们的值是12。

所以我们需要做的是创建从lag_1到lag_12的列,并使用**shift()**方法赋值:

#create dataframe for transformation from time series to supervised
df_supervised = df_diff.drop(['prev_sales'],axis=1)

#adding lags
for inc in range(1,13):
    field_name = 'lag_' + str(inc)
    df_supervised[field_name] = df_supervised['diff'].shift(inc)

#drop null values
df_supervised = df_supervised.dropna().reset_index(drop=True)

看看我们这个叫做df_supervised的新dataframe:

我们现在有了特征集。让我们更好奇地问这个问题:

我们的特征对于预测有多少用

Adjusted R-squared就是答案。它告诉我们,我们的特征在多大程度上解释了标签的变化(在我们的示例中,差从lag_1到lag_12)。

让我们来看一个例子:

# Import statsmodels.formula.api
import statsmodels.formula.api as smf

# Define the regression formula
model = smf.ols(formula='diff ~ lag_1', data=df_supervised)

# Fit the regression
model_fit = model.fit()

# Extract the adjusted r-squared
regression_adj_rsq = model_fit.rsquared_adj
print(regression_adj_rsq)

上面的代码做了什么事情?

我们拟合了一个线性回归模型(OLS - Ordinary Least Squares),并计算了Adjusted R-squared。对于上面的例子,我们使用lag_1列来查看它在多大程度上解释了列diff中的变化。该代码的输出为:

lag_1解释了3%的变化。让我们看看其他的:

再增加四个特征,得分从3%提高到44%。

如果我们使用整个特征集,得分是多少:

结果非常好,分数是98%。现在,我们可以在对数据缩放之后自信地构建我们的模型。但是在缩放之前还有一个步骤。我们应该把数据分成训练集和测试集。作为测试集,我们选择了最近6个月的销售额。

#import MinMaxScaler and create a new dataframe for LSTM model
from sklearn.preprocessing import MinMaxScaler
df_model = df_supervised.drop(['sales','date'],axis=1)

#split train and test set
train_set, test_set = df_model[0:-6].values, df_model[-6:].values

我们使用MinMaxScaler,它对每个特征缩放到-1和1之间:

#apply Min Max Scaler
scaler = MinMaxScaler(feature_range=(-1, 1))
scaler = scaler.fit(train_set)

# reshape training set
train_set = train_set.reshape(train_set.shape[0], train_set.shape[1])
train_set_scaled = scaler.transform(train_set)

# reshape test set
test_set = test_set.reshape(test_set.shape[0], test_set.shape[1])
test_set_scaled = scaler.transform(test_set)

构建LSTM模型

一切都准备好了,来建立我们的第一个深度学习模型。让我们从缩放后的数据集创建特征和标签:

X_train, y_train = train_set_scaled[:, 1:], train_set_scaled[:, 0:1]
X_train = X_train.reshape(X_train.shape[0], 1, X_train.shape[1])

X_test, y_test = test_set_scaled[:, 1:], test_set_scaled[:, 0:1]
X_test = X_test.reshape(X_test.shape[0], 1, X_test.shape[1])

我们拟合一下LSTM模型:

model = Sequential()
model.add(LSTM(4, batch_input_shape=(1, X_train.shape[1], X_train.shape[2]), stateful=True))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(X_train, y_train, nb_epoch=100, batch_size=1, verbose=1, shuffle=False)

上面的代码块打印出了模型是如何更新的,在每个epoch中误差是如何减少的:

我们来做一下预测,看看结果怎么样:

y_pred = model.predict(X_test,batch_size=1)
#for multistep prediction, you need to replace X_test values with the predictions coming from t-1

结果看起来很相似,但它并不能告诉我们多少信息,因为这些是差异的缩放后的数据。我们怎样才能看到实际的销售预测呢?

首先,我们需要做缩放的逆变换:

#reshape y_pred
y_pred = y_pred.reshape(y_pred.shape[0], 1, y_pred.shape[1])

#rebuild test set for inverse transform
pred_test_set = []
for index in range(0,len(y_pred)):
    print np.concatenate([y_pred[index],X_test[index]],axis=1)
    pred_test_set.append(np.concatenate([y_pred[index],X_test[index]],axis=1))
    
#reshape pred_test_set
pred_test_set = np.array(pred_test_set)
pred_test_set = pred_test_set.reshape(pred_test_set.shape[0], pred_test_set.shape[2])

#inverse transform
pred_test_set_inverted = scaler.inverse_transform(pred_test_set)

其次,我们需要构建具有日期和预测的dataframe。转换后的预测显示出了这种差异。我们计算预测的销售数字:

#create dataframe that shows the predicted sales
result_list = []
sales_dates = list(df_sales[-7:].date)
act_sales = list(df_sales[-7:].sales)
for index in range(0,len(pred_test_set_inverted)):
    result_dict = {}
    result_dict['pred_value'] = int(pred_test_set_inverted[index][0] + act_sales[index])
    result_dict['date'] = sales_dates[index+1]
    result_list.append(result_dict)
df_result = pd.DataFrame(result_list)

#for multistep prediction, replace act_sales with the predicted sales

输出:

太棒了!我们预测了未来六个月的销售数字。让我们在图中检查一下,看看我们的模型有多好:

#merge with actual sales dataframe
df_sales_pred = pd.merge(df_sales,df_result,on='date',how='left')

#plot actual and predicted
plot_data = [
    go.Scatter(
        x=df_sales_pred['date'],
        y=df_sales_pred['sales'],
        name='actual'
    ),
        go.Scatter(
        x=df_sales_pred['date'],
        y=df_sales_pred['pred_value'],
        name='predicted'
    )
    
]

plot_layout = go.Layout(
        title='Sales Prediction'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

实际值 vs 预测值:

对于一个简单的模型来说看起来很不错。

我们可以对这个模型做的一个改进是增加假期、休息时间和其他季节性影响。它们可以作为一个新特征简单地添加进去。

通过使用这个模型,我们有了基本的销售预测。但是我们如何预测促销对销售的影响呢?我们将在第7部分对此进行研究。

英文原文:https://towardsdatascience.com/predicting-sales-611cb5a252de

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码