文章目录

一、写在前面

好不容易女神喊我去看电影，但是她问我准备看什么，那我得好好准备准备~

二、准备工作

1、使用的软件

私信小编01即可获取大量Python学习资源

python 3.8 （来源免费的）
Pycharm （YYDS python最好用的编辑器不接受反驳…）

软件及安装讲解：软件安装包/安装视频讲解

2、使用的模块

requests >>> 数据请求模块 pip install requests
parsel >>> 数据解析模块 pipinstall parsel
csv
模块安装：如何安装python模块, python模块安装失败的原因以及解决办法

3、爬虫思路

无论你爬取任何网站数据，都是可以按照这个几步骤来。

1. 明确需求

我们要爬取的内容是什么

https://movie.douban.com/top250

要分析我们想要的数据，可以从哪里获取，哪里来的… (数据来源分析)

用这个开发者工具进行抓包(数据包)分析

静态网页：网页上面看到的数据内容,在网页源代码里面都有
动态网站：抓包分析

2. 发送请求 (开发者工具里面headers)

对于那个网址发送请求，发送什么样的请求，携带那些请求头参数。

3. 获取数据

获取服务器返回的数据内容，看服务器的数据格式是什么样的，或者说我们想要的数据是什么样的；

获取文本数据 response.text ；

获取服务器json字典数据 response.json() ；

获取二进制数据 response.content 保存视频/音频/图片/特定格式的文件内容，都是获取二进制数据；

4. 解析数据

提供我们想要的数据内容

5. 保存数据

保存本地

三、代码解析

1、导入模块

导入一下我们需要用到的模块

import requests  # 数据请求模块 pip install requests
import parsel  # 数据解析模块 pip install parsel
import csv  # 保存表格数据

2、创建文件

快速批量替换全文内容使用正则表达式替换内容

f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')  

csv_writer = csv.DictWriter(f, fieldnames=[
    '电影名字',
    '导演',
    '主演',
    '年份',
    '国家',
    '电影类型',
    '评论人数',
    '评分',
    '概述',
    '详情页',
])
csv_writer.writeheader()

3、获取数据

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={
   page}&filter='
    # headers 请求头 用来伪装python代码 为了防止爬虫程序被服务器识别出来,
    # User-Agent 浏览器的基本标识 用户代理 直接复制粘贴的
    # 披着羊皮的狼  爬虫程序 >>> 狼  headers >>> 羊皮  服务器数据 >>> 羊圈
    headers = {
 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 发送请求 get
    # 通过requests数据请求模块里面get请求方法 对于 url以及发送请求并且携带header请求头, 最后用response变量接收返回数据
    response = requests.get(url=url, headers=headers)
    # 获取数据
    # print(response.text)
    # 解析数据 re正则表达式 css选择器 xpath 那一种更方便 更加舒服 就用哪一个
    # json 键值对取值
    # 提取我们想要的数据内容
    # 把获取下来的 response.text 网页字符串数据 转成selector 对象
    selector = parsel.Selector(response.text)
    # <Selector xpath=None data='<html lang="zh-CN" class="ua-windows ...'> 对象
    # css选择器 根据标签属性提取数据
    # 第一次解析数据, 获取所有li标签
    lis = selector.css('.grid_view li')  # css选择器语法
    # selector.xpath('//*[@class="grid_view"]/li') # xpath写法
    # [] 列表, 如果说我想要一一提取列表里面的元素 怎么做?

4、解析数据

for li in lis:
    try:
        # span:nth-child(1) 组合选择器  表示的选择第几个span标签
        # 1 选择第一个span标签 text 获取标签文本数据
        title = li.css('.hd a span:nth-child(1)::text').get()
        href = li.css('.hd a::attr(href)').get()  # 详情页
        # li.xpath('//*[@class="hd"]/a/span(1)/text()').get()
        # get返回字符串数据 getall 是返回列表数据
        # get获取第一个标签数据 getall 获取所有的
        move_info = li.css('.bd p::text').getall()
        actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值
        # print(actor_list)
        date_list = move_info[1].strip().split('/')  # 列表索引位置取值
        director = actor_list[0].replace('导演: ', '').strip()  # 导演
        actor = actor_list[1].replace('主演: ', '').replace('/', '').replace('...', '') # 演员
        date = date_list[0].strip()  # 年份
        country = date_list[1].strip()  # 国家
        move_type = date_list[2].strip()  # 电影类型
        comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  # 评论人数
        star = li.css('.star span:nth-child(2)::text').get()  # 星级
        world = li.css('.inq::text').get()  # 概述
        # 字符串的高级方法
        # replace() 字符串替换的方法  strip() 去除字符串左右两端的空格 split() 分割 之后返回的列表
        # 字符串如何去除空格呢?
        # print(title, actor_list, date_list)
        dit = {
 
            '电影名字': title,
            '导演': director,
            '主演': actor,
            '年份': date,
            '国家': country,
            '电影类型': move_type,
            '评论人数': comment,
            '评分': star,
            '概述': world,
            '详情页': href,
        }

5、写入数据

csv_writer.writerow(dit)

6、输出数据

print(title, director, actor, date, country, move_type, comment, star, world, href, sep=' | ')
except:
    pass

所有代码

所有代码我就没写到目录里面，奖励给全部看完的你，不然有些人看到目录就直接点过来看全部代码了，哈哈~

import requests  
import parsel  
import csv  

f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')  
csv_writer = csv.DictWriter(f, fieldnames=[
    '电影名字',
    '导演',
    '主演',
    '年份',
    '国家',
    '电影类型',
    '评论人数',
    '评分',
    '概述',
    '详情页',
])
csv_writer.writeheader()

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={
   page}&filter='

    headers = {
 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }

    response = requests.get(url=url, headers=headers)
    selector = parsel.Selector(response.text)
    lis = selector.css('.grid_view li')  # css选择器语法

    for li in lis:
        try:

            title = li.css('.hd a span:nth-child(1)::text').get()
            href = li.css('.hd a::attr(href)').get()  # 详情页

            move_info = li.css('.bd p::text').getall()
            actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值

            date_list = move_info[1].strip().split('/')  # 列表索引位置取值
            director = actor_list[0].replace('导演: ', '').strip()  # 导演
            actor = actor_list[1].replace('主演: ', '').replace('/', '').replace('...', '') # 演员
            date = date_list[0].strip()  # 年份
            country = date_list[1].strip()  # 国家
            move_type = date_list[2].strip()  # 电影类型
            comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  
            star = li.css('.star span:nth-child(2)::text').get()  # 星级
            world = li.css('.inq::text').get()  # 概述

            dit = {
 
                '电影名字': title,
                '导演': director,
                '主演': actor,
                '年份': date,
                '国家': country,
                '电影类型': move_type,
                '评论人数': comment,
                '评分': star,
                '概述': world,
                '详情页': href,
            }
            csv_writer.writerow(dit) 

            print(title, director, actor, date, country, move_type, comment, star, world, href, sep=' | ')
        except:
            pass

注释对照前面，完整代码不给注释，为了你们认真学习我真的是挠破脑袋了。

为了周末带女神一起去看电影，我用Python爬取上万部电影的排名

文章目录

一、写在前面

二、准备工作

1、使用的软件

2、使用的模块

3、爬虫思路

1. 明确需求

2. 发送请求 (开发者工具里面headers)

3. 获取数据

4. 解析数据

5. 保存数据

三、代码解析

1、导入模块

2、创建文件

3、获取数据

4、解析数据

5、写入数据

6、输出数据

所有代码

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

为了周末带女神一起去看电影，我用Python爬取上万部电影的排名

文章目录

一、写在前面

二、准备工作

1、使用的软件

2、使用的模块

3、爬虫思路

1. 明确需求

2. 发送请求 (开发者工具里面headers)

3. 获取数据

4. 解析数据

5. 保存数据

三、代码解析

1、导入模块

2、创建文件

3、获取数据

4、解析数据

5、写入数据

6、输出数据

所有代码

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划