百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

新手必看!统计学常用知识梳理

toyiye 2024-06-21 12:36 6 浏览 0 评论

文末领取【统计学思维导图】

昨日文章→:数据运营案例:“无死角”复盘试运营项目

01 标准差(Standard deviation)

简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值.

例如:

两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差.

公式:

标准差可以当作不确定性的一种测量.在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较)

则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确.

标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小.

例如:

A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45

B组的分数为73,72,71,69,68,67.

这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多.

02

方差

两人的5次测验成绩如下:

A:50,100,100,60,50 -->Average(A) = 72

B:73,70,75,72,70 -->Average(B) = 72

平均成绩相同,但A不稳定,对平均值偏大.

方差描述随机变量对于数学期望的偏离程度.

方差公式:

可以看到方差是标准差的平方.

除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。

比如射箭时,一个优秀的选手能保持自己的弓箭集中于目标点附近,而一个经验不足的选手,他弓箭的落点会更容易散落许多地方。

上面的靶上有两套落点。尽管两套落点的平均中心位置都在原点 (即期望相同),但两套落点的离散程度明显有区别。蓝色的点离散程度更小。

数学上,我们用方差来代表一组数据或者某个概率分布的离散程度。可见,方差是独立于期望的另一个对分布的度量。两个分布,完全可能有相同的期望,而方差不同,正如我们上面的箭靶。

对于一个随机变量XX来说,它的方差为:

Var(X)=E[(X?μ)2]Var(X)=E[(X?μ)2]

其中,μμ表示XX的期望值,即μ=E(X)μ=E(X)。

我们可以代入期望的数学表达形式。

比如连续随机变量:

Var(X)=E[(X?μ)2]=∫+∞?∞(x?μ)2f(x)dxVar(X)=E[(X?μ)2]=∫?∞+∞(x?μ)2f(x)dx

方差概念背后的逻辑很简单。一个取值与期望值的“距离”用两者差的平方表示。该平方值表示取值与分布中心的偏差程度。平方的最小取值为0。当取值与期望值相同时,此时不离散,平方为0,即“距离”最小;当随机变量偏离期望值时,平方增大。由于取值是随机的,不同取值的概率不同,我们根据概率对该平方进行加权平均,也就获得整体的离散程度——方差。

方差的平方根称为标准差(standard deviation, 简写std)。我们常用σσ表示标准差.

σ=Var(X)??????√σ=Var(X)

标准差也表示分布的离散程度。

01 正态分布的方差

根据上面的定义,可以算出正态分布:

E(X)=1σ2π??√∫+∞?∞xe?(x?μ)2/2σ2dxE(X)=1σ2π∫?∞+∞xe?(x?μ)2/2σ2dx的方差为

Var(X)=σ2Var(X)=σ2

正态分布的标准差正等于正态分布中的参数σσ。这正是我们使用字母σσ来表示标准差的原因!

可以预期到,正态分布的σσ越大,分布离散越大,正如我们从下面的分布曲线中看到的:

当方差小时,曲线下的面积更加集中于期望值0附近。当方差大时,随机变量更加离散。此时分布曲线的“尾部”很厚,即使在取值很偏离0时,比如x=4x=4时,依然有很大的概率可以取到。

代码如下:

# By Vamei

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale", which is stdrv1 = norm(loc=0, scale = 1)rv2 = norm(loc=0, scale = 2)

x = np.linspace(-5, 5, 200)

plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)

plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")

plt.legendplt.grid(True)

plt.xlim([-5, 5])plt.ylim([-0.0, 0.5])

plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")

plt.show

02 指数分布的方差

指数分布的表达式为:

f(x)={λe?λx0ififx≥0x<0f(x)={λe?λxifx≥00ifx<0

它的方差为:

Var(X)=1λ2Var(X)=1λ2

如下图所示:

03 Chebyshev不等式

我们一直在强调,标准差(和方差)表示分布的离散程度。标准差越大,随机变量取值偏离平均值的可能性越大。如何定量的说明这一点呢?我们可以计算一个随机变量与期望偏离超过某个量的可能性。比如偏离超过2个标准差的可能性。即

P(|X?μ|>2σ)P(|X?μ|>2σ)

这个概率依赖于分布本身的类型。比如正态分布N(0,1)N(0,1),这一概率即为x大于2,或者x小于-2的部分对应的曲线下面积:

实际上,无论μμ和σσ如何取值,对于正态分布来说,偏离期望超过两个标准差的概率都相同,约等于0.0455 (可以根据正态分布的表达式计算)。随机变量的取值有约95.545%的可能性落在正负两个标准差的区间内,即从-2到2。如果我们放大区间,比如正负三个标准差,这一概率超过99%。我们可以相当有把握的说,随机变量会落正负三个标准差之内。上面的论述并不依赖于标准差的具体值。这里可以看到标准差所衡量的“离散”的真正含义:如果取相同概率的极端值区间,比如上面的0.0455,标准差越大,该极端值区间距离中心值越远。

然而,上面的计算和表述依赖于分布的类型(正态分布)。如何将相似的方差含义套用在其它随机变量身上呢?

Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下:

对于任意随机变量X,如果它的期望为μμ,方差为σ2σ2,那么对于任意t>0t>0,

P(|X?μ|>t)≤σ2tP(|X?μ|>t)≤σ2t

无论X是什么分布,上述不等式成立。我们让t=2σt=2σ,那么

P(|X?μ|>2σ)≤0.25P(|X?μ|>2σ)≤0.25

也就是说,X的取值超过两个正负标准差的可能性最多为25%。换句话说,随机变量至少有75%的概率落在正负两个标准差的范围内。(显然这是最“坏”的情况下。正态分布显然不是”最坏“的)

绘图代码如下:

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale", which is stdrv1 = norm(loc=0, scale = 1)

x1 = np.linspace(-5, -1, 100)x2 = np.linspace(1, 5, 100)x = np.linspace(-5, 5, 200)plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")

plt.legendplt.grid(True)

plt.xlim([-5, 5])plt.ylim([-0.0, 0.5])

plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")

plt.show

03 MAD绝对中位值

  • 中位数:统计学名词,是指将统计总体中的各个变量值按大小顺序排列起来形成一个数列,处于变量数列中间位置的变量值就称为中位数.

  • MAD:就是先求出给定数据的中位数(注意并非均值)然后原数列的每个值与这个中位数求出绝对差,然后新数列的中位值就是MAD

例如:

数据A:8,5,9,6,3,2,4,9 2,3,4,5,6,8,9

中位数 = 5

A - 5 = 3,0,4,1,2,3,1,4 0,1,1,2,3,3,4

MAD = 2.

04

总结

我们引入了一个新的分布描述量:方差-->它用于表示分布的离散程度.

  • 标准差为方差的平方根!!!

  • 方差越大,“极端区间”偏离中心越远!!!

End.

作者:Climber

来源:博客园

本文为转载分享,如侵权请联系后台删除

长按海报添加微信领取【统计学思维导图】

球分享

球在看

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码