利用Python实现EXCEL和SQL的部分功能!

导入数据、数据概览

导入所需要的库

进群：960410445 即可获取书十套PDF！

import
 pandas 
as
 pd
import
 numpy 
as
 np
import
 requests
from
 bs4 
import
 
BeautifulSoup
import
 re
%matplotlib inline

Panads库处理我们的数据
numpy库执行数值的操作和转换
requests库来从网站获取HTML数据
Python(re) 的正则表达式来更改在处理数据时可能出现的某些字符串
%matplotlib inline 在Jupyter notebook做图时使用的, 如果不适用这句魔法命令图形就会另外打开一个窗口, 使用这句命令就会让作图出现在 jupyter notebook的浏览器中

爬取数据

r = requests.get(
'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)_per_capita'
)
gdptable = r.text
soup = 
BeautifulSoup
(gdptable, 
'lxml'
)
table = soup.find(
'table'
, attrs = {
"class"
 :
"wikitable sortable"
})
theads=[]
for
 tx 
in
 table.findAll(
'th'
):
 theads.append(tx.text)
data =[]
for
 rows 
in
 table.findAll(
'tr'
):
 row={}
 i=
0
 
for
 cell 
in
 rows.findAll(
'td'
):
 row[theads[i]]=re.sub(
'\xa0'
, 
''
,cell.text)
 i+=
1
 
if
 len(row)!=
0
:
 data.append(row)
print
(data)

输出的结果

key-value列表
国家排名、国家的名称、人均GDP（以美元表示）
字典转换为dataframe

gdp = pd.
DataFrame
(data)

查看前5行

gdp.head()

替换列名

重命名列

#只修改其中一列
gdp = gdp.rename(columns = {
'US$\n'
:
'money'
})
#修改多个列名
gdp.columns = [
'Country'
,
'Rank'
,
'money'
]
gdp.head()

删除列

del
 gdp[
'Rank'
]

转换数据类型

#删除逗号和换行符
gdp[
'money'
] = gdp[
'money'
].apply(
lambda
 x: re.sub(
','
,
''
,x)) 
gdp[
'money'
] = gdp[
'money'
].apply(
lambda
 x: re.sub(
'\n'
,
''
,x)) 
#将money转换为数值型
gdp[
'money'
] = gdp[
'money'
].apply(pd.to_numeric)
gdp.head(
3
)

计算均值

#计算均值
gdp[
'money'
].mean()

选择数据

#1、人均GDP大于5w
gdp5w = gdp[gdp[
'money'
] > 
50000
] 
#2、提取以‘S’开头的国家
gdps = gdp[gdp[
'Country'
].str.startswith(
'S'
)]
len(gdps)#得到一共有
25
个国家
#3、选择以S开头的国家且人均GDP大于5w的国家
gdps5w = gdp[(gdp[
'money'
] > 
50000
) & (gdp[
'Country'
].str.startswith(
'S'
))]
#4、现在选择人均GDP大于5w或者以S开头的国家
gdps_or_gdp5w = gdp[(gdp.money > 
50000
) | (gdp.
Country
.str.startswith(
'S'
))]

求和

#计算人均GDP超过5万的总和
gdp5w.money.sum()

直方图

#直方图
gdp5w.money.hist()

连接数据

countrycsv = pd.read_csv(
"D:\\data\\PythonData\\Country.csv"
)
df = pd.merge(gdp,countrycsv,how = 
'inner'
,left_on = 
'Country'
,right_on = 
'TableName'
)
countrycsv.head()

groupby分组

#将国家和人均GDP按其所在地区进行分组
gdpregion = df.groupby([
'Region'
]).mean()
gdpregion

因为groupby操作创建的是一个可被操作的临时对象，不会创建永久接口来构建聚合结果，因此我们使用pivot_table透视表进行分组

pivot_table透视表

gdppivot = df.pivot_table(index = [
'Region'
], margins = 
True
, aggfunc = np.mean)
gdppivot

删除不需要的列

gdppivot.drop({
'LatestIndustrialData'
,
'LatestTradeData'
,
'LatestWaterWithdrawalData'
},axis = 
1
, inplace = 
True
)
gdppivot

拓展部分：pandas.merge

原文链接：

https://mp.weixin.qq.com/s?__biz=MzIzMzQ3MDQ1Mw==&mid=2247484131&idx=1&sn=638f242383d8b7a75d5556f4777eaf44&chksm=e8846279dff3eb6f4b7ec772252f7c2a1dfe8ea3c2a50320d2a5d1183384186e208819f212f9&mpshare=1&scene=23&srcid=0112Uz99mMmUG2tksj1Zo6bc#rd

参数列表

merge函数的参数

连接方法

pd.merge()方法

创建两个DataFrame

inner(内连接)：连接两边都有的值

outer(外连接)：左连接和右连接的并集，左侧DataFrame取全部数据，右侧DataFrame匹配左侧DataFrame并用NaN填充缺失值。

默认下是inner连接,即inner 代表交集；outer 代表并集；left 和 right 分别为取一边。

#创建DataFrame
df1 = pd.
DataFrame
({
'key'
:list(
'bbaca'
),
'data1'
:range(
5
)})
df1
df2 = pd.
DataFrame
({
'key'
:[
'a'
,
'b'
,
'd'
],
'data2'
:range(
3
)})
df2

#内连接
pd.merge(df1,df2)
#缺省时参数how是内连接，并按照相同的字段key进行合并，推荐使用下面这种方式
#pd.merge(df1,df2,on = 'key')

#外连接
pd.merge(df1,df2,how = 
'outer'
)

#左连接
pd.merge(df1,df2,how = 
'left'
)

#右连接
pd.merge(df1,df2,how = 
'right'
)

pd.merge()索引连接

#索引
#df1使用data1当做连接关键字，df2使用索引当做连接关键字
pd.merge(df1,df2,left_on = 
'data1'
,right_index = 
True
)

上面可以发现两个DataFrame中都有key列，merge合并之后，pandas会字段在后面加上（_x,_y)。我们可以使用suffixes进行设置。

pd.merge(df1,df2,left_on = 
'data1'
,right_index = 
True
,
suffixes = (
'_df1'
,
'_df2'
))

suffixes=(‘_x’,’_y’) 指的是当左右对象中存在除连接键外的同名列时，结果的区分方式，可以各加一个小尾巴。

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）