百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

python之折线图绘制体验

toyiye 2024-06-21 12:40 10 浏览 0 评论

上一篇“python之初体验”中我们主要是实现了抓取csdn本人博客列表页面的每一篇博客的阅读数量和标题功能,后来就想我们是有了数量和title,可是我还想要是知道我的每篇阅读数量和日期之间的关系就好了,以及每篇博客的阅读趋势,说到关系和趋势可能再多的语言都显得苍白无力,所以图表可能是最好的一种表现形式,今天要实现的功能就是在python中通过绘制折线图来表明日期和阅读数量的关系。

当然代码是可以复用的,之前的爬取代码我们直接拿过来用就好了,本质上是只需要将我们爬取的数据展示在折线图上面就好了,python中画图常用的就是matplotlib了,当然这个属于第三方模块,需要安装,如果不安装直接导包是会失败的,当然安装就很简单了,这里就不多介绍了。下面是我们代码的完整实例。

[python] view plain copy

  1. #!usr/bin/python

  2. # -*- coding: utf-8 -*-

  3. '''''

  4. 使用python爬取csdn个人博客的访问量,并用折线图展示出来时间和阅读数目的关系

  5. '''

  6. import urllib2

  7. import re

  8. from bs4 import BeautifulSoup;

  9. #当前的博客列表页号

  10. from http import ResponseUtils

  11. # 导入画图需要的库

  12. from pylab import *

  13. page_num = 1

  14. notLast = 1;

  15. # account = str(raw_input('输入csdn的登录账号:'))

  16. account = 'submit66'

  17. allTitleList = [];

  18. allViewList = [];

  19. while notLast:

  20. #首页地址

  21. baseUrl = 'http://blog.csdn.net/'+account

  22. #连接页号,组成爬取的页面网址

  23. myUrl = baseUrl+'/article/list/'+str(page_num)

  24. #伪装成浏览器访问,直接访问的话csdn会拒绝

  25. user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

  26. headers = {'User-Agent': user_agent}

  27. #构造请求

  28. req = urllib2.Request(myUrl, headers=headers);

  29. #访问页面

  30. myResponse = urllib2.urlopen(req)

  31. myPage = ResponseUtils.OutResponse().getResponse(myResponse);

  32. #在页面中查找是否存在‘尾页’这一个标签来判断是否为最后一页,如果没有则代表是最后一页了

  33. pattern = re.compile('尾页</a>');

  34. notLast = pattern.findall(myPage, re.S);

  35. soup = BeautifulSoup(myPage, 'lxml');

  36. # 使用beautifulsoup来解析html

  37. titleList = soup.find_all('span', class_='link_postdate');

  38. # 使用beautifulsoup来解析html

  39. viewList = soup.find_all('span', class_='link_view');

  40. allTitleList.extend(titleList);

  41. allViewList.extend(viewList);

  42. #页号加1

  43. page_num = page_num + 1;

  44. # ----------------循环结束渠道数据,下面是为了绘图准备数据,并且对数据做加工-----------------

  45. # 将数据结果顺序反转,因为之前是倒序排列,我们需要的时间是从前到后的

  46. allTitleList.reverse();

  47. allViewList.reverse();

  48. # 声明两个数组,存储的即为x、y轴的值

  49. xValues = [];

  50. yValues = [];

  51. # 通过循环给存储x和y轴坐标值的list赋值

  52. for n in range(len(allViewList)):

  53. xvalue = allViewList[n].contents[1].encode('utf-8'); # 取出阅读数量数据

  54. yvalue = allTitleList[n].get_text().encode('utf-8'); # 取出阅读日期数据

  55. yValues.append(xvalue[1:len(xvalue)-1]) # 因为去除的阅读数是带()的,所以我们需要截取,对于字符串的截取就相当于截取数组

  56. xValues.append(yvalue) # 将阅读数量放在list中

  57. # 打印输出我们的数据

  58. print'阅读数量:%s 日期:%s' % (yValues[n], xValues[n]);

  59. # --------------下面是开始绘图部分--------------

  60. # 这行代码是设置中文字体可以展示,否则将会报错

  61. mpl.rcParams['font.sans-serif'] = ['SimHei']

  62. x = range(len(xValues))

  63. plt.plot(x, yValues, marker='o', mec='r', mfc='w', label=u'x时间和y阅读数关系折线图')

  64. plt.legend() # 让图例生效

  65. # 可以看到x和y 设置的方式是不同的,因为x轴可能只是一个名称,一个分类,而不是一个具体的数值,所以通过这种方式来做了,而对于y则是要具体展示的数值

  66. plt.xticks(x, xValues, rotation=45) # 这里的rotation,当名称展示时候,一个倾斜的角度,当文案很长时候特别好用

  67. plt.margins(0) # 这个不设置的话,折线的开始和结束出会有间距

  68. plt.subplots_adjust(bottom=0.27) # 设置折线图和底部区域的距离

  69. plt.xlabel(u"time(s)阅读日期") #X轴标签

  70. plt.ylabel(u"阅读数量(次)") #Y轴标签

  71. plt.title(u"阅读数量趋势图") #标题

  72. # 展示图表对话框

  73. plt.show()

其实,上面的代码写的还是蛮清楚的,相比之前的代码,就是需要导入pylab模块,里面自然是包含了matplotlib的了,之前代码还是爬取的,一变的是之前我们抓取的是阅读数量和博客title,现在是阅读数量和每篇博客创建时间,二是将阅读数量和阅读日期分别放在了list中方便下面使用。然后第二部分就是将数据做整合,即为绘图准备x和y轴的值,两者均放在一个list里面,两个list的数量是一致的,否则是会报错的。第三部分则是绘图部分,首先是设置了绘图可以正确展示中文,其次是将x和y轴的数据给了绘图实例,然后让绘图实例生效,因为我们的x轴只是一个名称展示,这里即为日期展示,所以不能像y轴那样子直接把值塞进去,所以下面调用了xticks方法进行了特殊处理,下面又设置了x和y轴标签,即x和y轴分别代表什么了。最后就是我们的图表的show(秀)啦。让我们看看最终效果图吧:

嗯,看起来貌似还不错,不过最近的阅读数量有点低呀,尴尬啦。有人会问上面的xticks方法的rotation是干嘛的,就是让我们的x轴数值逆时针旋转45度呀,你看我们的x轴的每个数值都那么长,如果不旋转肯定覆盖了呀,还有subplots_adjust这个方法是设置绘图区域和上下左右之间的距离的,特别是底部的,如果不设置的话,那么长的文案是会被下面的菜单栏覆盖的哦,然后我们再说说plot这个方法的几个参数的意思,前两个就是x和y轴的数据了,第三个就是设置上图的红圈即为标记点了,第四个参数是设置标记点的颜色,上面r代表红色,你换成g就是绿色了,如果不设置的话,默认是蓝色。第五个参数就是设置标记点是否是实心,如果mfc不设置的话就是实心的,最后一个参数就是折线图的实例和说明了。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码