百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

Python初尝试

toyiye 2024-06-21 12:40 10 浏览 0 评论

最近python是越来越火了,自己也是想体验一把,所以就抽时间把python基础语法什么的都了解了下,也把具体的代码试了试。看完了想着总要应用下吧,否则总感觉没劲儿,就跟没学似得,毕竟实践是最好的老师嘛。那么实现个什么功能呢?然后就看到了博客,要不就把所有博客的标题以及阅读次数统计下吧,也算是网络爬虫吧,哈哈哈。

确定了,就想想大致要怎么做吧。我们的基本步骤也是首先先看下需要获取信息的网页源代码,我们就是博客列表页面呀,即为 http://blog.csdn.net/submit66/article/list,其实现在我觉得所谓的爬取就是把网页内容请求到,然后根据网页标签取到我们想要的标签,以及数据。这就是大致的思路。

好,接下就是请求的步骤了,第一步打开上面那个链接,然后只需要右键然后显示网页源代码就好了。我们的目的就是想要渠道每一篇博客的名称以及访问量,通过观察可以看到所有的标题以及阅读次数都是写在如下的标签里面的:

里面的注释写的比较清楚了,我们的目的就是获取上面的title“自定义Linearlayout实现dividerPaddingLeft和dividerPaddingRight”和阅读次数“54”了呀。接下来看下代码:

[python] view plain copy

  1. # -*- coding: utf-8 -*- 指定编码格式防止 代码中有中文编译失败

  2. '''''

  3. 使用python爬取csdn个人博客的访问量

  4. '''

  5. import urllib2 # 网络请求模块

  6. import re # 正则表达式模块

  7. from bs4 import BeautifulSoup; # 导入解析html的标签模块

  8. page_num = 1; # 页码,因为有的博客比较多,那么一页不能展示全了

  9. notLast = 1;

  10. account = 'submit66'# 博客id

  11. # 开始循环爬取

  12. while notLast:

  13. #博客首页地址,csdn+博客id

  14. baseUrl = 'http://blog.csdn.net/'+account

  15. #构造爬取的页面地址,因为可能有多页

  16. myUrl = baseUrl+'/article/list/'+str(page_num)

  17. #构造请求

  18. req = urllib2.Request(myUrl);

  19. myResponse = urllib2.urlopen(req)

  20. # 获取请求回来的数据

  21. myPage = myResponse.read();

  22. #在页面中查找是否存在‘尾页’这一个标签来判断是否为最后一页,如果没有则代表是最后一页了,用的正则匹配

  23. pattern = re.compile('尾页</a>');

  24. notLast = pattern.findall(myPage, re.S);

  25. # 打印爬取的页码数

  26. print'-----------------------------第%d页---------------------------------' % (page_num);

  27. soup = BeautifulSoup(myPage, 'lxml');

  28. # 使用beautifulsoup来解析html的span标签,找到所有的标题以list形式返回

  29. titleList = soup.find_all('span', class_='link_title');

  30. # 利用正则表达式获取博客的访问量,最终会将所有的页码以list形式返回

  31. viewlist = re.findall('<span class="link_view".*?><a href=".*?" title="阅读次数">阅读</a>(.??)</span>', myPage,re.S)

  32. #将结果打印出来,因为标题返回时候是ASCII码,所以需需要将标题部分获取到的中文以utf-8再次编码,否则无法输出打印

  33. #另外我们获取到的标题会有一些没用的空格,打印出来不美观,所以后面加上了去除左右空格的方法

  34. for n in range(len(titleList)):

  35. print'访问量: %s 标题: %s' % (viewlist[n], titleList[n].get_text().encode('utf-8').strip())

  36. #本页抓取完毕后页号加1

  37. page_num = page_num + 1;

上面的代码做什么基本注释都写得比较清晰,最上面的import肯定就是导入需要的第三方模块,其中的BeautifulSoup需要单独安装,否则会找不到的。首先肯定是需要通过网络请求将页面的html代码下载下来,然后开始解析的,因为有的同学的博客比较多,所以会存在分页的问题,我们循环爬取,但是还需要知道什么时候爬取结束呀,就取了一个标志,因为我们经常看博客会发现

底部这样子的提示,当你到最后一页时候,其实就没有“尾页”这个tab了,所以这里姑且通过正则表达式匹配它来判断是否还需要再次进行循环。其实也可以通过爬取回来的页面是否还有博客来判断,因为如果一个空页面博客列表肯定为空呀,或者获取到的博客标题为空等等方式。然后就是用的python自带的网络请求模块,普通的get请求,然后拿到网页内容,接下来就是获取博客标题了,beautifulsoup的find_all方法第一次参数就是要查找的标签名称,第二个参数是指定了class必须为link_title,然后它会返回一个list,后面则是又通过正则表达式匹配出来了页码数,最后是将标题以及访问量格式化输出了,大体的流程就是酱紫。其实上面的博客标题我都想通过正则表达式匹配出来,无奈,自己正则表达式用的不6,所以借助了beautifulsoup这个在Python中解析html代码标签的第三方模块库,其实它还是挺方便以及强大的。其实获取博客访问量部分我们依然可以通过soup来解析了,只不过下面那的代码就要变成酱紫了:

[python] view plain copy

  1. # 使用beautifulsoup来解析html

  2. viewList = soup.find_all('span', class_='link_view');

  3. #将结果输出

  4. for n in range(len(titleList)):

  5. print'访问量: %s次 标题: %s' % (viewList[n].contents[1].encode('utf-8').strip(), titleList[n].get_text().encode('utf-8').strip());

  6. #页号加1

  7. page_num = page_num + 1;

可以看到输出viewlist时候用了contents这个属性,是因为contents能够取到viewlist中的每一个span的子标签子内容,通过取数观察发现,访问数量处于第二位所以是contents[1]了。而获取标题部分的get_text方法则是获取标签所包的具体文案内容的。上面的代码是可以直接运行的,在终端或者IDE里面执行过后可以看到如下的结果:

以上就是本次博客的全部内容,如果有错误纰漏欢迎批评指正。其实,觉得python这个东西真的挺神奇的,简单几行代码就可以搞很多事情,以后还要多研究呀。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码