当前位置：移动技术网 > IT编程>开发语言>JavaScript > selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页

selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页

2020年07月20日 | 移动技术网IT编程 | 我要评论

在爬虫翻页的时候，url是不变的，也就是说网站是通过javascript动态加载下一页的。
当我们打开source code，会发现翻页按钮的href不是一个url而是：javascript:void(0)
针对这种情况，我们可以用selenium进行虚拟点击

准备工作

查看自己的chrome版本，在右上角三个点，Help - About Google Chrome
安装和自己chrome版本相匹配的chrome driver .
不用纠结64还是32，都下32bit的，只有32bit。
下载完zip后解压，将chromedriver.exe文件复制到Google/Chrome/Application目录下：
具体目录：C:\Program Files (x86)\Google\Chrome\Application
也复制到Python或者Anaconda3目录下。C:\Users\User_Name\Anaconda3
下载安装selenium：pip install selenium

Python中使用selenium

完整代码：

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import re
# 初始化driver
url = "http://data.eastmoney.com/notices/stock/688089.html"
options = Options()
options.add_argument("--headless")  # 无界面
driver = webdriver.Chrome(options=options)
driver.get(url)

# 先print第一页的第一个帖子的标题
try:
	title = driver.find_element_by_class_name("overflow")
	print("current top article is:   ")
	print(title.text)
except:
	print("can't find this tag")
# 点击“下一页”按钮
try:
	next_page = driver.find_element_by_link_text("下一页")
	next_page.click()
	# 现在的driver就在第二页了
except:
	#如果找不到，print something
	print("Nothing found")


# print 第二页第一个帖子标题
try:
	title = driver.find_element_by_class_name("overflow")
	print("current top article is:   ")
	print(title.text)
except:
	print("Nothing found")
	
driver.quit()

初始化driver

# initialize(url)
# url替换成自己要爬的网站
# 我这个网站是一个股票介绍，里面有很多的公告，有27页可以爬
url = "http://data.eastmoney.com/notices/stock/688089.html"
options = Options()
options.add_argument("--headless")  # 无界面
driver = webdriver.Chrome(options=options)
driver.get(url)

我想要在一堆帖子中，找到标题含有“社会责任报告”的，第一页如果没有需要进入第二页。
在这里插入图片描述

一些driver的操作：

driver.find_elements_by_class_name(“class_name”)
会获得一个list of elements

driver.find_element_by_class_name(“class_name”)
会获得单个element

driver.find_element_by_id(“id”)
driver.find_element_by_tag(“a”)

element.get_attribute(“id”)
id可以换成class/href/title等

更具体可以看documentation

在这里插入图片描述
先通过chrome的开发者工具，找到要获取的element的特点（独特的id/class等）
试一下获取这一页第一个帖子title：

title = driver.find_element_by_class_name("overflow")
print(title.text)

output:

688089:嘉必优2019年年度权益分派实施公告

最重要的是可以通过innerHTML找element

driver.find_elements_by_link_text(“innerHTML”)

innerHTML就是tag里面的文字，这个非常有用，这样我们就可以找到”下一页“的dom element，也就是我们想要点击的按钮。

我们可以进行下一步操作，怎么点击呢。

怎么点击

try:
	next_page = driver.find_element_by_link_text("下一页")
	next_page.click()
	# 现在的driver就在第二页了
except:
	#如果找不到，print something
	print("Nothing found")

测试一下看看我们是不是在第二页：

title = driver.find_element_by_class_name("overflow")
print(title.text)
# 还是找本页第一个帖子的标题，但是现在我们是在第二页，标题会和之前的不一样

output:

688089:嘉必优首次公开发行股票并在科创板上市网上发行申购情况及中签率公告

最后别忘了quit
不然会出现很糟糕的事情
driver.quit()

本文地址：https://blog.csdn.net/wendyw1999/article/details/107414953

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

js闭包的原理及应用

js闭包的原理及应用闭包的实现原理和作用实际开发中js闭包的应用js面试题（闭包）总结闭包的实现原理和作用1、闭... [阅读全文]
JS（JavaScript）中的继承——分析总结（附源码）

继承：就是子类去继承父类的公有属性和私有属性；继承的特点：可以拥有父类的公有属性和私有属性；继承的分类：原型... [阅读全文]
WEB介绍（beego）

WEB介绍什么是web请求浏览器(客户端)发送一个请求到服务器，服务器对这个请求进行处理，并返回结果给浏览器，浏... [阅读全文]
JS基础五（ES六新增语法）

ES六新增语法ES6简介let命令let和var的比较不存在变量提升不允许重复声明const命令ES6声明变量的... [阅读全文]
JS学习第一天by SixInNight

JS学习第一天图片滚动有缝隙滚动无缝隙滚动简单的计算器图片滚动有缝隙滚动代码<html><bo... [阅读全文]
Vue 简单的开始

Vue.js 简单滴起步阅读之前，您需要了解的知识：HTMLCSSJavaScript<!DOCTYPE ... [阅读全文]
两道JS练习题笔记，JS的赋值问题以及常用字符串函数问题

题目一： var a={n:1} var b=a; a.x=a={n:2}var a={n:1}var b=a;... [阅读全文]
Vue搭建脚手架(需要建立在安装node.js环境之后的方法)

1.下载安装node.js环境官网地址:https://nodejs.org/en/download/安装完毕之... [阅读全文]
2020.7.24 一个130行代码的清洗数据的小工具，多种表分类聚合去重补全-zkjs_wang

公司最近要处理的数据越来越大，表格N+++多，看着前辈各种得心应手的我不禁自卑起来，于是为自己写了这个自清洗脚本... [阅读全文]
全面解析JavaScript Module模式

简介module模式是javascript编程中一个非常通用的模式，一般情况下，大家都知道基本用法，本文尝试着给大家更多该模式的高级使用方式。首先我们来看看mo... [阅读全文]