当前位置：移动技术网 > IT编程>脚本编程>Python > Python使用Chrome插件实现爬虫过程图解

Python使用Chrome插件实现爬虫过程图解

2020年06月23日 | 移动技术网IT编程 | 我要评论

做电商时，消费者对商品的评论是很重要的，但是不会写代码怎么办？这里有个chrome插件可以做到简单的数据爬取，一句代码都不用写。下面给大家展示部分抓取后的数据：

可以看到，抓取的地址，评论人，评论内容，时间，产品颜色都已经抓取下来了。那么，爬取这些数据需要哪些工具呢？就两个：

1. chrome浏览器；

2. 插件：web scraper

插件下载地址：

最后，如果你想自己动手抓取一下，这里是这次抓取的详细过程：

1. 首先，复制如下的代码，对，你不需要写代码，但是为了便于上手，复制代码还是需要的，后续可以自己定制和选择，不需要写代码。

{
  "_id": "jdreview",
  "starturl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "selectortext",
      "selector": "div.user-info",
      "parentselectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "selectortext",
      "selector": "div.comment-column > p.comment-con",
      "parentselectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "selectortext",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentselectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "selectortext",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentselectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "selectorelementclick",
      "selector": "div.comment-item",
      "parentselectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickelementselector": "div.com-table-footer a.ui-pager-next",
      "clicktype": "clickmore",
      "discardinitialelements": false,
      "clickelementuniquenesstype": "uniquehtmltext"
    }
  ]
}

2. 然后打开chrome浏览器，在任意页面同时按下ctrl+shift+i，在弹出的窗口中找到web scraper，如下：

3. 如下

4. 如图，粘贴上述的代码：

5. 如图，如果需要定制网址，注意替代一下，网址后面的#comment是直达评论的链接，不能去掉：

6. 如图：

7. 如图：

8. 如图，点击scrape后，会自动运行打开需要抓取得页面，不要关闭窗口，静静等待完成，完成后右下方会提示完成，一般1000条以内的评论不会有问题：

9. 最后，点击下载到电脑，数据保存好。

使用这个工具的好处是：

1. 不需要编程；

2. 京东的评论基本可以通用此脚本，修改对应的url即可；

3. 如果需要爬取的评论不到1000条，这个工具会非常称手，所有的数据完全自动下载；

使用的注意点：

1. 抓取过一次的数据会有记录，立刻再次抓取将不会保存，建议关闭浏览器重新打开后再试；

2. 抓取数量:1000条以内没有问题，可能是京东按照ip直接阻止了更多的爬取；

如果你的英语水平不错，可以尝试阅读官方文档，进一步学习和定制自己的爬虫。

官方教程：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python如何使用input函数获取输入

所谓输入，就是用代码获取用户通过键盘输入的信息。例如：去银行取钱，在 atm 上输入密码。在 python 中，如果要获取用户在键盘上的输入信息，需要使用到in... [阅读全文]
vscode调试django项目的方法

这几天研究hue，这个东西是基于django开发的，于是又看了一眼django，学着写个demo。微软开源的vscode在业界反应不错，以前也没用过，借着这次机... [阅读全文]
Python实现Canny及Hough算法代码实例解析

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径。效果代码实现canny边缘检测：# autho... [阅读全文]
Python变量格式化输出实现原理解析

print() 函数使用以 % 开头的转换说明符对各种类型的数据进行格式化输出。转换说明符(conversion specifier)只是一个占位符(也称为格式... [阅读全文]
python中逻辑与或（and、or）和按位与或异或（&、|、^）区别

按位与或（&、|、^）：按照二进制进行逻辑运算例如：数字换成二进制，各自位上的0/1进行逻辑运算，得到的结果转换为数字3 & 2=0111 &a... [阅读全文]
基于Python编写一个计算器程序，实现简单的加减乘除和取余二元运算

方法一：结合lambda表达式、函数调用运算符、标准库函数对象、c++11标准新增的标准库function类型，编写一个简单的计算器，可实现简单的加、减、乘、除... [阅读全文]
浅谈Python3中print函数的换行

python3中print函数的换行最近看了看python的应用，从入门级的九九乘法表开始，结果发现python3.x和python2.x真的是有太大的不同之处... [阅读全文]
Python调用C/C++的方法解析

python是解释性语言, 底层就是用c实现的, 所以用python调用c是很容易的, 下面就总结一下各种调用的方法, 给出例子, 所有例子都在ubuntu9.... [阅读全文]
学习Python爬虫的几点建议

爬虫是大家公认的入门python最好方式，没有之一。虽然python有很多应用的方向，但爬虫对于新手小白而言更友好，原理也更简单，几行代码就能实现... [阅读全文]
Python创建临时文件和文件夹

问题你需要在程序执行时创建一个临时文件或目录，并希望使用完之后可以自动销毁掉。解决方案tempfile 模块中有很多的函数可以完成这任务。为了创建一个匿名的临... [阅读全文]

网友评论


验证码：

Python使用Chrome插件实现爬虫过程图解

2020年06月23日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论