百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

泊松分布以及在什么情况下使用它(什么时候使用泊松分布)

toyiye 2024-08-10 21:38 10 浏览 0 评论


一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这一令人兴奋的成就发生的概率,但你不知道怎么做。

在世界上有许多场景,其中存在某个随机事件的已知概率,企业希望发现该事件在未来发生的概率大于或小于这个概率。例如,已经知道自己平均销售额的零售商所有者会试图猜测他们在黑色星期五或双十一等特殊日子能多赚多少钱。这将帮助他们储存更多的产品,并相应地管理他们的员工。

在这篇文章中,我们将讨论用于模拟上述情况的泊松分布背后的理论,如何理解和使用它的公式,以及如何使用Python代码来模拟它。

离散型概率分布

这篇文章假设你对概率有一个基本的了解。在我们开始真正的文章之前,我们将建立一些对离散概率分布的理解。

首先,让我们定义离散的含义。在描述统计学中,离散数据是通过计数记录或收集的任何数据,即整数。例如考试分数、停车场里的汽车数量、医院里的分娩数量等。

然后,有一些随机实验会产生离散的结果。例如,抛硬币有两种结果:正面和反面(1和0),掷骰子有6种离散结果,以此类推。如果用一个随机变量X来存储离散实验的可能结果,那么它将具有离散概率分布。

概率分布记录了随机实验的所有可能结果。

作为一个简单的例子,让我们来构建一次抛硬币的分布:


这很容易。如果我们想以编程的方式记录这个分布,它应该是Python列表或Numpy数组的形式:


然而,你可以想象,对于有许多可能结果的大型实验,用这种方法建立分布并找到概率是不可能的。值得庆幸的是,每个概率分布都有自己的公式来计算任何结果的概率。对于离散概率分布,这些函数称为概率质量函数(PMF)。

泊松分布

我们将通过一个案例来开始理解泊松分布。假如你真的很喜欢在医院里看新生儿。根据你的观察和报告,你知道医院平均每小时出生6个新生儿。

你发现你明天要出差,所以在去机场之前,你想最后一次去医院。因为你要离开好几个月,你想看到尽可能多的新生儿,所以你想知道在起飞前一小时是否有机会见到10个或更多的婴儿。

如果我们把观察新生儿作为一个随机实验,结果将遵循经典的泊松分布。原因是它满足泊松分布的所有条件:

有一个已知的事件速率:平均每小时有6个新生儿

事件是独立发生的:1婴儿的出生并不影响下一个婴儿的出生时间

已知的出生率随时间是不变的:平均每小时婴儿的数量不随时间变化

两件事不会在同一时刻发生(每个结果都是离散的)

泊松分布具有许多重要的业务含义。企业通常使用他来预测某一天的销售额或客户数量,因为他们知道每天的平均价格。做出这样的预测有助于企业在生产、调度或人员配备方面做出更好的决策。例如,库存过多意味着销售活动减少,或者没有足够的商品意味着失去商机。

简而言之,泊松分布有助于发现事件在固定时间间隔内发生的概率大于或小于已经记录的速率(通常表示为λ(lambda))。

其概率质量函数为:


这个公式的字母含义如下:

1. k是成功的次数(期望发生的次数)

1. λ是给定的速率

1. e为欧拉数,e = 2.71828…

1. k !是k的阶乘吗

使用这个公式,我们可以求出看到10个新生儿知道平均出生率为6的概率:


不幸的是,只有大约4%的几率能看到10个孩子。

我们不会详细讲解这个公式是如何推导出来的,但如果你感兴趣,请观看可汗学院的视频。

还有一些要点你必须记住。即使有一个已知的速率,它只是一个平均值,所以事件的时间可能是完全随机的。例如,你可以观察两个背靠背出生的婴儿,或者你可能会为下一个婴儿等待半个小时。

而且,在实践中,λ的速率可能不总是恒定的。这甚至适用于我们的新生儿实验。即使这个条件不成立,我们仍然可以认为分布是泊松分布,因为泊松分布足够接近,可以模拟情况的行为。

模拟泊松分布

利用numpy从泊松分布中模拟或抽取样本非常容易。我们首先导入它,并使用它的随机模块进行模拟:

import numpy as np

从泊松分布中提取样本,我们只需要速率参数λ。我们把它插入np,随机的。泊松函数,并指定样本个数:

poisson = np.random.poisson(lam=10, size=10000)

这里,我们模拟了一个速率为10的分布,有10k个数据点。为了看到这个分布,我们将绘制其PMF的结果。虽然我们可以手工完成,但已经有一个非常好的包叫empiricaldist,由艾伦·b·唐尼(Allen B. Downey)撰写,他是《ThinkPython》(ThinkPython)和《ThinkStats》(ThinkStats)等著名著作的作者。我们将安装并导入其Pmf函数到我们的环境中:

from empiricaldist import Pmf # pip install empiricaldist

Pmf有一个名为from_seq的函数,它接受任何分布并计算Pmf:

poisson = np.random.poisson(lam=10, size=10000)
pmf_poisson = Pmf.from_seq(poisson)
pmf_poisson


回想一下,PMF显示了每个唯一结果的概率,所以在上面的结果中,结果被作为指数和概率下的概率给出。让我们使用matplotlib来绘制它:

# Create figure and axes objects
fig, ax = plt.subplots(figsize=(20, 10))

# Plot the PMF
ax.plot(pmf_poisson, marker='.')  # label each data point with a dot

# Labelling
ax.set(title='Probability Mass Function of Poisson Distribution',
       ylabel='P (X = x)', xlabel='Number of events')

plt.show();


正如预期的那样,最高的概率是均值(速率参数,λ)。

现在,让我们假设我们忘记了泊松分布的PMF公式。如果我们做观察新生儿的实验,我们如何求出看到10个新生儿而比率为6的概率呢?

首先,我们用给定的速率作为参数来模拟完美泊松分布。同时,为了获得更好的精度,我们会绘制大量的样本:

child_births = np.random.poisson(lam=6, size=1000000)

我们对一个速率为6,长度为100万的分布进行抽样。接下来,我们看看他们中有多少人有10个孩子:

births_10 = np.sum(child_births == 10)

>>> births_10
41114

所以,我们在41114个试验中观察了10个婴儿(每个小时可以考虑有一个试验)。然后,我们用这个数除以样本总数:

>>> births_10 / 1e6

0.041114

如果您回想一下,使用PMF公式,结果是0.0413,我们可以看到我们手工编写的解决方案非常接近。

结论

关于泊松分布仍有许多值得探讨的地方。我们讨论了这个词的基本用法及其在商业世界中的含义。泊松分布还有一些有趣的地方比如它和二项分布的关系。

作者:Bex T.

deephub翻译组

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码