上一文我们学习分享了Scipy的信号处理相关的函数使用,今天继续分享如何使用Scipy进行概率统计。
概率分布分两种:连续型和离散型,数据变量也是。我们学过概率统计的同学都记得几个关键的概念:随机变量、概率密度、概率分布、样本空间。还有随机变量的数字特征、大数定律、中心极限定理等等等。
涉及到的很多,我们就常见的几个进行学习分享,学会怎么调用Scipy的static包进行大数据处理开发即可,其他的用到再去官网查阅。学习编程不可能所有的api函数都记得,也不可能。
一 基础属性
我们要求一个分布的随机变量、概率密度、数字特征等,都是通过调用static包的对应的分布函数,然后获取其属性。其中公共方法参数属性如下:
以正态分布的使用为例子;
正太分布N(μ,σ^2),μ为期望,σ为标准差,当N(0,1)的时候为标准正太分布
1.产生10个正太分布的随机变量
2.标准正太分布在x=0,x=0.5位置的概率分布
3.期望、方差
4.非标准正太分布的属性获取
几个例子只是为了熟悉如何调用函数分布并且获取其属性,显然,我们不会只是用到正太分布一种,还有其他各种函数分布。
二 常用分布使用
“常用”这个词显然是仁者见仁,每个人都有自己的常用。不同业务场景的开发人员、数据分析人员都有不同的常用概率分布函数。我们先来概览下Scipy提供的分布函数
连续分布律
具体参考官网 https://docs.scipy.org/doc/scipy/reference/tutorial/stats/continuous.html
离散分布律
具体参考官网 https://docs.scipy.org/doc/scipy/reference/tutorial/stats/discrete.html
我们就二项分布、泊松分布、伽马分布举一反三,然后其他的想要用到查询官网进行使用
1.二项分布
2.泊松分布
3.伽马分布
三总结
我们学习了如何使用Scipy的stats包,并且进行简单的概率统计。当然概率统计的概念和公式非常多,后面我们大数据分析,进行推测经常用到。现在只是学习如何使用,并没有深究。下一文我们将分享学习利用Scipy进行数据清洗,缺值处理——插值,interpolate
非常感谢您的细心阅读,喜欢请关注甫义教育今日头条号,我们将创作Python如何进行数据处理、数据分析等原创作品,来实现挖掘数据的价值,谢谢