百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

阿粉教你如何使用爬虫来对比某东上的数据

toyiye 2024-06-21 12:18 15 浏览 0 评论



自从阿粉经历过上次的大数据杀熟事件之后,明显感觉现在的平台对于用户非常的不友好呀,只要你高频的搜索某些关键词的同时,却往往是越对比,直接就买在了最高峰,就和买股票一样,每次总感觉能抄底,殊不知买在了天台。于是阿粉想了个办法,把所有的数据扒拉下来,我自己做对比,也不去搜索了,省的平台上总是根据我的搜索内容去进行推荐。


Java如何做爬虫

大家在想到爬虫的时候,一定想说,爬虫,这东西不是学Python的人员才能做的么?我们Java能做呢?阿粉想告诉大家的是,可以,Java语言这么多年,历时这么久,怎么可能没有这些内容呢,于是阿粉就开始了学习了 Java 的爬虫道路。

Jsoup

阿粉在介绍这个类之前,肯定先得说说我们通常看到的内容是由什么组成的,现在比如说我们做开发的都知道,至少我们在电脑端访问某东,某宝的数据的时候,他们给我们反馈的数据都是通过 HTML 来进行展示的,比如说这个样子:


在开发的肯定都是知道,这些都是些什么意思,阿粉在这里我们就不再进行详细的介绍,说这个 HTML 到底是个啥东西了,阿粉需要介绍的是 Jsoup ,然后告诉大家怎么使用 Jsoup 这个类爬取京东的数据。

正如官方文档所给我们提示的内容,怎么去解析一段 HTML 代码 :

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
  
Document doc = Jsoup.parse(html);

而这个 Document是什么呢?我们可以输出一下看一眼,顺带着看看源码解释,毕竟嘛,开发人员不看这个类是干嘛的,就不是个合格的程序员不是,

输出内容:

<html>
 <head>
  <title>First parse</title>
 </head>
 <body>
  <p>Parsed HTML into a doc.</p>
 </body>
</html>

其实可以看出这里,Document实际上是给我们输出了一个新的文档,而且是整理之后的,相当于为之后的分析 HTML 做了专业的准备。

而我们在看源码的注释的时候,不难看出,Jsoup不单单是能解析我们给的这个字符串,还可以是一个URL,也可以是一个文件。

它把我们给他的 HTML 字符串转换成了一个对象,这个对象就是我们上面看到的 Document,然后我们就可以顺利成章的去使用 Document 对象里面的元素了。

上面是解析字符串,那我们看下面这个解析 URL 的存在:

 public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&utm_term=0f3d30c8dba7459bb52f2eb5eba8ac7d_0_f38cf584e9fb4328a3e0d2bb515e1458").get();
            String title = doc.title();
            System.out.println(title);
        }catch (IOException e){
            e.printStackTrace();
        }
    }
    

大家执行以下的话,就一定能够看到这个 title 到底是什么,而结果是这个样子的:

和我们在百度搜索的时候是不是不太一样了,因为这个是进入之后的主页。

Element

而在我们看源码的时候,我们能清晰的看到,Document 是继承了 Element 的类,那么必然可以调用 Element 里面的方法,比如说:

getElementById(String id); //是不是有点眼熟,像不像Js里面的ID选择器

getElementsByTag(String tagName);// 通过标签来选择

getAllElements();//获取所有的Element的元素

关于方法,阿粉就不再一一的进行叙述了,大家有兴趣的可以去看看官方文档,或者去看看这个源码,包名送上 package org.jsoup.nodes

有人肯定开始烦了,说阿粉,你就别介绍了,那你说了太多废话了,赶紧介绍爬京东,好的,这就开始,

我们在爬取之前肯定先分析京东的网址,比如说我搜索硬盘:


下面就出来了一堆数据,而我们则需要解析的就是在 HTML 最有用的那一部分,比如:

<div class="p-price">
    <strong class="J_54994027563" data-done="1">
        <em>¥</em><i>879.00</i>
    </strong>
</div>

在这里我们就记下了这个价格,然后我们去找我们要的名字


看,p-name就是我们需要的名字,那么我们就可以写代码了。

     //这是京东的搜索网址,我们把这个keyword关键词提取出来,注意中英文,中文要处理一下
     String url = "https://search.jd.com/Search?keyword=" + keyword;
     url = url + "&enc=utf-8";
     Document document = Jsoup.parse(new URL(url), 40000);
    
     //我们先找这个 List,然后一层一层的遍历
     Element element = document.getElementById("J_goodsList");
     Elements elements = element.getElementsByTag("li");
     for (Element el : elements) {
         String img = el.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
         String price = el.getElementsByClass("p-price").eq(0).text();
         String title = el.getElementsByClass("p-name").eq(0).text();
         String shop = el.getElementsByClass("p-shop").eq(0).text();
            System.out.println("=========================");
            System.out.println("标题:" + title);
            System.out.println("图片url:" + img);
            System.out.println("店铺:" + shop);
            System.out.println("价格:" + price);
      } 

大家看执行的效果图:

如果你还有兴趣的话,你可以直接在for循环里面新建一个对象,弄一个List集合,然后在最后的的时候,执行一下插入数据库的方法,这样是不是就能完整的把数据都保存下来了呢?

写在最后

为什么阿粉介绍爬取某东,而不去爬取某宝,因为某东是允许你爬取我的数据的,他没有做任何的反扒机制,而某宝则不行,正是应了那句话

“某东:我卖的是真货,你说我骗人,我赔给你,某宝:我卖假货,但是我不承认,你能拿我怎么办?某多多:亲,假一赔十,结果发过来11件假货,”

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码