百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

Python数据的归宿

toyiye 2024-06-21 11:54 9 浏览 0 评论

欢迎关注「issnail」

"一起学习,一起成长!"

1.文件输入/输出(普通文件)

数据持久化最简单的类型是普通文件,又叫平面文件(flat file)。它仅仅是在一个文件名下的字节流,把数据从一个文件读入内容,然后从内存写入文件。

读写一个文件之前需要打开它:

fileobj=open(filename,mode)

下面是对该open调用的简单解释:

  • fileobj是open()返回的文件对象;
  • filename是该文件的字符串名;
  • mode是指明文件类型和操作的字符串;

mode的第一个字母标明对其的操作

  • r表示读模式。
  • w表示写模式。如果文件不存在则新创建,如果存在则重写新内容。
  • x表示在文件不存在的情况下新创建并写文件。【避免重写文件】
  • a表示如果文件存在,在文件末尾追加写内容。

mode的第二个字母是文件类型

  • t(或省略)代表文本类型;
  • b代表二进制文件。

打开文件之后就可以调用函数来读写数据,最后需要关闭文件。

1.1使用write()写文本文件

函数write()返回写入文件的字节数。

两种写入文件内容的方法:

  • 一是使用函数write(),如下所示

>>>fout=open('relativity','wt')

#函数write返回写入文件的字节数

>>>fout.write(poem)

>>>150

>>>fout.close()

  • 二是使用print(),如下所示

>>>fout=open('relativity','wt')

#打印到指定文件中

>>>print(poem,file=fout)

>>>fout.close()

使用write()还是print()?

print默认会在每个参数后面添加空格,在每行结束处添加换行。为了使print()与write()有同样的输出,传入下面两个参数。

  • sep分隔符:默认是一个空格‘ ’
  • end结束字符:默认是一个换行符‘\n’

除非自定义参数,否则print()会使用默认参数。

>>>fout=open('relativity','wt')

>>>print(poem,file=fout,sep='',end='')

>>>fout.close()

如果@源字符串非常大,可以将数据分块,知道所有字符被写入:

>>>fout=open('relativity','wt')

>>>size=len(poem)

>>>offset=0

>>>chunk=100

>>>while True:

... if offset>size:

... break

... fout.write(poem[offset:offset+chunk])

... offset += chunk

... 100

... 50

...

>>>fout.close()

@如果‘relativity’文件已经存在,使用模式x可以避免重写文件:

>>>fout=open('relativity','xt')

Traceback (most recent call last):

File "<ipython-input-53-75d35c89676c>", line 1, in <module>

fout=open('relativity','xt')

FileExistsError: [Errno 17] File exists: 'relativity'

针对此种情况,可以加入一个@异常处理

>>>try:

... fout=open('relativity','xt')

... fout.write('stomp stomp stomp')

...except FileExistsError:

... print('relativity already exists!.That was a close one.')

...

relativity already exists!.That was a close one.

1.2使用read()、readline()或者readlines()读文本文件

@read()、readline()最终都返回单个字符串(如poem),readlines()返回单行字符串的列表。

1.2.1 read()

  • 按照字符数读入,read()默认读入文件的所有内容

注意:如果使用不带参数的read()函数一次读入文件的@所有内容,1GB的文件会用到相同大小的内存。

书写格式:poem=fin.read()

@设置最大的读入字符数,限制read()函数一次返回的大小。

代码示例:

>>>poem=''

>>>fin=open('relativity','rt')

>>>chunk=100

>>>while True:

... fragment=fin.read(chunk)

... if not fragment:

... break

... poem += fragment

...

>>>fin.close()

>>>len(poem)

150

读到文件结尾之后,再次调用read()会返回空字符串(’’)。

1.2.2 readline()

l 每次读入文件的一行(通过追加每一行拼接成原来的字符串)

书写格式:line=fin.readline()

代码示例:

>>>poem=''

>>>fin=open('relativity','rt')

>>>while True:

... line=fin.readline()

... if not line:

... break

... poem += line

>>>fin.close()

>>>len(poem)

150

读取文本文件最简单的方式是使用一个迭代器(iterator),它会每次返回一行。

>>>poem=''

>>>fin=open('relativity','rt')

>>>for line in fin:

... poem += line

>>>fin.close()

>>>len(poem)

150

1.2.3 readlines()

  • 读入所有行,并返回单行字符串的列表。

书写格式:lines=fin.readlines()

示例代码:

>>>fin=open('relativity','rt')

>>>lines=fin.readlines()

>>>fin.close()

>>>print(len(lines),'lines read')

5 lines read

>>>for line in lines:

... print(line,end='')

...

There was a young lady named Bright,

Whose speed was far faster than light;

She started one day

In a relative way,

And returned on the previous night.

1.3使用write()写二进制文件

如果文件模式字符串中包含‘b’,那么文件会以二进制模式打开。这种情况下,读写的是字节而不是字符串。

>>> bdata=bytes(range(0,256))

>>> len(bdata)

256

以二进制模式打开文件,并且一次写入所有的数据:

>>> fout=open('bfile','wb')

>>> fout.write(bdata)

256

>>> fout.close()

就像文本一样,二进制数据也可以分块写入,具体可参见文本处。

1.4使用read()读二进制文件

用‘rb打开文件即可:

>>> fin=open('bfile','rb')

>>> bdata=fin.read()

>>> len(bdata)

256

>>> fin.close()

1.5使用with自动关闭文件

Python的上下文管理器(context manager)会清理一些资源,例如打开的文件。它的形式为with expression as variable:

>>> with open('relativity','wt') as fout:

... fout.write(poem)

完成上下文管理器的代码后,文件会被自动关闭。

1.6使用seek()改变位置

无论是读或者写文件,python都会跟踪文件中的位置。函数tell()返回距离文件开始处的字节偏移量。函数seek()允许跳转到文件其他字节偏移量的位置。这意味着可以不用从头读取文件的每一个字节,直接跳到最后位置并只读一个字节也是可行的。

>>> fin=open('bfile','rb')

>>> fin.tell()

0

#使用seek()读取文件结束前最后一个字节:

>>> fin.seek(255)

255

#一直读到文件结束:

>>> bdata=fin.read()

>>> len(bdata)

1

>>> bdata[0]

255

用第二个参数调用函数seek():seek(offset,origin)。

  • 如果origin等于0(默认为0),从开头偏移offset个字节。
  • 如果origin等于1,从当前位置处偏移offset个字节。
  • 如果origin等于2距离最后结尾处偏移offset个字节。

这些值在标准os模块中被定义:

>>> import os

>>> os.SEEK_SET

0

>>> os.SEEK_CUR

1

>>> os.SEEK_END

2

可以用不同的方法读取最后一个字节

>>> fin=open('bfile','rb')

>>> fin.seek(-1,2)

255

>>> fin.tell()

255

>>> bdata=fin.read()

>>> len(bdata)

1

>>> bdata[0]

255

从文件的当前位置寻找的例子

>>> fin=open('bfile','rb')

>>> fin.seek(254,0)

254

>>> fin.tell()

254

>>> fin.seek(1,1)

255

>>> fin.tell()

255

>>> bdata=fin.read()

>>> len(bdata)

1

>>> bdata[0]

255

这些函数对于二进制文件都是极其重要的。当文件是ASCII编码(每个字符一个字节)时,也可以使用它们,但是计算偏移量会是一件麻烦事。其实,这些都取决于文本的编码格式,最流行的编码格式(例如UTF-8)每个字符数都不尽相同。

2.结构化的文本文件

结构化的文本有很多格式,区别它们的方法如下所示:

  • 分隔符,比如tab(‘\t’)、逗号(‘,’)或者竖线(‘|’)。逗号分隔值(CSV)就是这样的例子。
  • ‘<’和‘>’标签,例如XML和HTML。
  • 标点符号,例如JavaScript Object Notation(JSON)。JSON是一种轻量级的数据交换格式,它是基于JavaScript的一个子集。
  • 缩进,例如YAML(即YAML Ain’t Markup Language的缩写)。
  • 混合的,例如各种配置文件。

每一种结构化文件格式都能够被至少一种Python模块读写。

2.1 CSV

带分隔符的文件一般用作数据交换格式或者数据库。最好使用标准的csv模块,因为这样切分会得到更加复杂的信息。

  • 除了逗号,还有其他可代替的分隔符:‘|’和‘\t’很常见。
  • 有些数据会有转义字符序列,如果分隔符出现在一块区域内,则整块都要加上引号或者在她之前加上转义字符。
  • 文件可能有不同的换行符,Unix系统的文件使用’\n’,Microsoft使用’\r\n’,Apple之前使用’\r’而现在使用’\n’。
  • 第一行可以加上列名

2.1.1 csv.writer()

【列表】

首先,读和写一个列表的行,每一行包含很多列:

>>>import csv

>>>villains=[

... ['Doctor','No'],

... ['Rosa','Klebb'],

... ['Mister','Big'],

... ['Auric','Goldfinger'],

... ['Ernst','Blofeld']

... ]

>>>with open('villains','wt') as fout:

... csvout=csv.writer(fout)

... csvout.writerows(villains)

创建文件villains的内容如下:

Doctor,No

Rosa,Klebb

Mister,Big

Auric,Goldfinger

Ernst,Blofeld

2.1.2 csv.reader()

【列表】

重新读villains文件。

>>>import csv

>>>with open('villains','rt') as fin: #一个上下文管理器

... cin=csv.reader(fin)

... villains=[row for row in cin] #使用列表推导式

...

>>>print(villains)

[['Doctor', 'No'], [], ['Rosa', 'Klebb'], [], ['Mister', 'Big'], [], ['Auric', 'Goldfinger'], [], ['Ernst', 'Blofeld'], []]

我们利用函数reader()创建的结构,它在通过for循环提取到的cin对象中构建每一行。

【重要】使用reader()和writer()的默认操作。每一列用逗号分开;每一行用换行符分开。

2.1.3 csv.DictReader()

【字典】

数据可以是以字典为元素的列表(a list of dictionary),不仅仅是以列表为元素的列表(a list of list)。接下来,使用新函数DictReader()读取文件villains,并且制定每一列的名字。

>>>import csv

>>>with open('villains','rt') as fin:

... cin=csv.DictReader(fin,fieldnames=['first','last'])

... villains=[row for row in cin]

...

>>>print(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]), OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]), OrderedDict([('first', 'Mister'), ('last', 'Big')]), OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]), OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]

2.1.4 csv.DictWriter()

【字典】

下面使用新函数DictWriter()重写CSV文件,同时调用writeheader()向CSV文件中第一行写入每一列的名字。

>>>import csv

>>>with open('villains1','wt') as fout:

... cout=csv.DictWriter(fout,['first','last'])

... cout.writeheader()

... cout.writerows(villains1)

>>>villains1

[{'first': 'Doctor', 'last': 'No'},

{'first': 'Rosa', 'last': 'Klebb'},

{'first': 'Mister', 'last': 'Big'},

{'first': 'Auric', 'last': 'Goldfinger'},

{'first': 'Ernst', 'last': 'Blofeld'}]

3.结构化二进制文件

3.1 电子数据表(Excel)

电子数据表,尤其是Microsoft Excel,是广泛使用的二进制数据格式。

如果把电子数据表保存到一个CSV文件中,就可以利用之前提到的标准csv模块读取它。

如果有一个xls文件,也可以使用第三方库xlrd(http:pypi.python.org/pypi/xlrd)读写文件。

「亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个关注哦!感谢!」

「诚邀关注“issnail”,会有惊喜哦!」

「文中代码均亲测过,若有错误之处,欢迎批评指正,一起学习,一起成长!」

参考书目:python语言及其应用

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码