Python数据的归宿

欢迎关注「issnail」

"一起学习，一起成长！"

1.文件输入/输出（普通文件）

数据持久化最简单的类型是普通文件，又叫平面文件（flat file）。它仅仅是在一个文件名下的字节流，把数据从一个文件读入内容，然后从内存写入文件。

读写一个文件之前需要打开它：

fileobj=open(filename,mode)

下面是对该open调用的简单解释：

fileobj是open()返回的文件对象；
filename是该文件的字符串名；
mode是指明文件类型和操作的字符串；

mode的第一个字母标明对其的操作：

r表示读模式。
w表示写模式。如果文件不存在则新创建，如果存在则重写新内容。
x表示在文件不存在的情况下新创建并写文件。【避免重写文件】
a表示如果文件存在，在文件末尾追加写内容。

mode的第二个字母是文件类型：

t（或省略）代表文本类型；
b代表二进制文件。

打开文件之后就可以调用函数来读写数据，最后需要关闭文件。

1.1使用write()写文本文件

函数write()返回写入文件的字节数。

两种写入文件内容的方法：

一是使用函数write()，如下所示

>>>fout=open('relativity','wt')

#函数write返回写入文件的字节数

>>>fout.write(poem)

>>>150

>>>fout.close()

二是使用print()，如下所示

>>>fout=open('relativity','wt')

#打印到指定文件中

>>>print(poem,file=fout)

>>>fout.close()

使用write()还是print()？

print默认会在每个参数后面添加空格，在每行结束处添加换行。为了使print()与write()有同样的输出，传入下面两个参数。

sep分隔符：默认是一个空格‘ ’
end结束字符：默认是一个换行符‘\n’

除非自定义参数，否则print()会使用默认参数。

>>>fout=open('relativity','wt')

>>>print(poem,file=fout,sep='',end='')

>>>fout.close()

如果@源字符串非常大，可以将数据分块，知道所有字符被写入：

>>>fout=open('relativity','wt')

>>>size=len(poem)

>>>offset=0

>>>chunk=100

>>>while True:

... if offset>size:

... break

... fout.write(poem[offset:offset+chunk])

... offset += chunk

... 100

... 50

...

>>>fout.close()

@如果‘relativity’文件已经存在，使用模式x可以避免重写文件：

>>>fout=open('relativity','xt')

Traceback (most recent call last):

File "<ipython-input-53-75d35c89676c>", line 1, in <module>

fout=open('relativity','xt')

FileExistsError: [Errno 17] File exists: 'relativity'

针对此种情况，可以加入一个@异常处理：

>>>try:

... fout=open('relativity','xt')

... fout.write('stomp stomp stomp')

...except FileExistsError:

... print('relativity already exists!.That was a close one.')

...

relativity already exists!.That was a close one.

1.2使用read()、readline()或者readlines()读文本文件

@read()、readline()最终都返回单个字符串（如poem），readlines()返回单行字符串的列表。

1.2.1 read()

按照字符数读入，read()默认读入文件的所有内容

注意：如果使用不带参数的read()函数一次读入文件的@所有内容，1GB的文件会用到相同大小的内存。

书写格式：poem=fin.read()

@设置最大的读入字符数，限制read()函数一次返回的大小。

代码示例：

>>>poem=''

>>>fin=open('relativity','rt')

>>>chunk=100

>>>while True:

... fragment=fin.read(chunk)

... if not fragment:

... break

... poem += fragment

...

>>>fin.close()

>>>len(poem)

150

读到文件结尾之后，再次调用read()会返回空字符串（’’）。

1.2.2 readline()

l 每次读入文件的一行（通过追加每一行拼接成原来的字符串）

书写格式：line=fin.readline()

代码示例：

>>>poem=''

>>>fin=open('relativity','rt')

>>>while True:

... line=fin.readline()

... if not line:

... break

... poem += line

>>>fin.close()

>>>len(poem)

150

读取文本文件最简单的方式是使用一个迭代器(iterator)，它会每次返回一行。

>>>poem=''

>>>fin=open('relativity','rt')

>>>for line in fin:

... poem += line

>>>fin.close()

>>>len(poem)

150

1.2.3 readlines()

读入所有行，并返回单行字符串的列表。

书写格式：lines=fin.readlines()

示例代码：

>>>fin=open('relativity','rt')

>>>lines=fin.readlines()

>>>fin.close()

>>>print(len(lines),'lines read')

5 lines read

>>>for line in lines:

... print(line,end='')

...

There was a young lady named Bright,

Whose speed was far faster than light;

She started one day

In a relative way,

And returned on the previous night.

1.3使用write()写二进制文件

如果文件模式字符串中包含‘b’，那么文件会以二进制模式打开。这种情况下，读写的是字节而不是字符串。

>>> bdata=bytes(range(0,256))

>>> len(bdata)

256

以二进制模式打开文件，并且一次写入所有的数据：

>>> fout=open('bfile','wb')

>>> fout.write(bdata)

256

>>> fout.close()

就像文本一样，二进制数据也可以分块写入，具体可参见文本处。

1.4使用read()读二进制文件

用‘rb打开文件即可：

>>> fin=open('bfile','rb')

>>> bdata=fin.read()

>>> len(bdata)

256

>>> fin.close()

1.5使用with自动关闭文件

Python的上下文管理器(context manager)会清理一些资源，例如打开的文件。它的形式为with expression as variable：

>>> with open('relativity','wt') as fout:

... fout.write(poem)

完成上下文管理器的代码后，文件会被自动关闭。

1.6使用seek()改变位置

无论是读或者写文件，python都会跟踪文件中的位置。函数tell()返回距离文件开始处的字节偏移量。函数seek()允许跳转到文件其他字节偏移量的位置。这意味着可以不用从头读取文件的每一个字节，直接跳到最后位置并只读一个字节也是可行的。

>>> fin=open('bfile','rb')

>>> fin.tell()

#使用seek()读取文件结束前最后一个字节：

>>> fin.seek(255)

255

#一直读到文件结束：

>>> bdata=fin.read()

>>> len(bdata)

>>> bdata[0]

255

用第二个参数调用函数seek()：seek(offset,origin)。

如果origin等于0（默认为0），从开头偏移offset个字节。
如果origin等于1，从当前位置处偏移offset个字节。
如果origin等于2，距离最后结尾处偏移offset个字节。

这些值在标准os模块中被定义：

>>> import os

>>> os.SEEK_SET

>>> os.SEEK_CUR

>>> os.SEEK_END

可以用不同的方法读取最后一个字节：

>>> fin=open('bfile','rb')

>>> fin.seek(-1,2)

255

>>> fin.tell()

255

>>> bdata=fin.read()

>>> len(bdata)

>>> bdata[0]

255

从文件的当前位置寻找的例子：

>>> fin=open('bfile','rb')

>>> fin.seek(254,0)

254

>>> fin.tell()

254

>>> fin.seek(1,1)

255

>>> fin.tell()

255

>>> bdata=fin.read()

>>> len(bdata)

>>> bdata[0]

255

这些函数对于二进制文件都是极其重要的。当文件是ASCII编码（每个字符一个字节）时，也可以使用它们，但是计算偏移量会是一件麻烦事。其实，这些都取决于文本的编码格式，最流行的编码格式（例如UTF-8）每个字符数都不尽相同。

2.结构化的文本文件

结构化的文本有很多格式，区别它们的方法如下所示：

分隔符，比如tab(‘\t’)、逗号(‘,’)或者竖线(‘|’)。逗号分隔值（CSV）就是这样的例子。
‘<’和‘>’标签，例如XML和HTML。
标点符号，例如JavaScript Object Notation(JSON)。JSON是一种轻量级的数据交换格式，它是基于JavaScript的一个子集。
缩进，例如YAML(即YAML Ain’t Markup Language的缩写)。
混合的，例如各种配置文件。

每一种结构化文件格式都能够被至少一种Python模块读写。

2.1 CSV

带分隔符的文件一般用作数据交换格式或者数据库。最好使用标准的csv模块，因为这样切分会得到更加复杂的信息。

除了逗号，还有其他可代替的分隔符：‘|’和‘\t’很常见。
有些数据会有转义字符序列，如果分隔符出现在一块区域内，则整块都要加上引号或者在她之前加上转义字符。
文件可能有不同的换行符，Unix系统的文件使用’\n’，Microsoft使用’\r\n’，Apple之前使用’\r’而现在使用’\n’。
在第一行可以加上列名。

2.1.1 csv.writer()

【列表】

首先，读和写一个列表的行，每一行包含很多列：

>>>import csv

>>>villains=[

... ['Doctor','No'],

... ['Rosa','Klebb'],

... ['Mister','Big'],

... ['Auric','Goldfinger'],

... ['Ernst','Blofeld']

... ]

>>>with open('villains','wt') as fout:

... csvout=csv.writer(fout)

... csvout.writerows(villains)

创建文件villains的内容如下：

Doctor,No

Rosa,Klebb

Mister,Big

Auric,Goldfinger

Ernst,Blofeld

2.1.2 csv.reader()

【列表】

重新读villains文件。

>>>import csv

>>>with open('villains','rt') as fin: #一个上下文管理器

... cin=csv.reader(fin)

... villains=[row for row in cin] #使用列表推导式

...

>>>print(villains)

[['Doctor', 'No'], [], ['Rosa', 'Klebb'], [], ['Mister', 'Big'], [], ['Auric', 'Goldfinger'], [], ['Ernst', 'Blofeld'], []]

我们利用函数reader()创建的结构，它在通过for循环提取到的cin对象中构建每一行。

【重要】使用reader()和writer()的默认操作。每一列用逗号分开；每一行用换行符分开。

2.1.3 csv.DictReader()

【字典】

数据可以是以字典为元素的列表（a list of dictionary），不仅仅是以列表为元素的列表（a list of list）。接下来，使用新函数DictReader()读取文件villains，并且制定每一列的名字。

>>>import csv

>>>with open('villains','rt') as fin:

... cin=csv.DictReader(fin,fieldnames=['first','last'])

... villains=[row for row in cin]

...

>>>print(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]), OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]), OrderedDict([('first', 'Mister'), ('last', 'Big')]), OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]), OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]

2.1.4 csv.DictWriter()

【字典】

下面使用新函数DictWriter()重写CSV文件，同时调用writeheader()向CSV文件中第一行写入每一列的名字。

>>>import csv

>>>with open('villains1','wt') as fout:

... cout=csv.DictWriter(fout,['first','last'])

... cout.writeheader()

... cout.writerows(villains1)

>>>villains1

[{'first': 'Doctor', 'last': 'No'},

{'first': 'Rosa', 'last': 'Klebb'},

{'first': 'Mister', 'last': 'Big'},

{'first': 'Auric', 'last': 'Goldfinger'},

{'first': 'Ernst', 'last': 'Blofeld'}]

3.结构化二进制文件

3.1 电子数据表(Excel)

电子数据表，尤其是Microsoft Excel，是广泛使用的二进制数据格式。

如果把电子数据表保存到一个CSV文件中，就可以利用之前提到的标准csv模块读取它。

如果有一个xls文件，也可以使用第三方库xlrd（http:pypi.python.org/pypi/xlrd）读写文件。

「亲，如果笔记对您有帮助，收藏的同时，记得给点个赞、加个关注哦！感谢！」

「诚邀关注“issnail”，会有惊喜哦!」

「文中代码均亲测过，若有错误之处，欢迎批评指正，一起学习，一起成长！」

参考书目：python语言及其应用

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

Python数据的归宿

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划