当前位置：移动技术网 > IT编程>脚本编程>Python > Python中Selenium库使用教程详解

Python中Selenium库使用教程详解

2020年07月23日 | 移动技术网IT编程 | 我要评论

selenium介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行javascript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

中文参考文档

环境安装

下载安装selenium

pip install selenium -i https://mirrors.aliyun.com/pypi/simple/

谷歌浏览器驱动程序下载地址：

使用示例

from selenium import webdriver
from time import sleep

# 实例化一款浏览器
bor = webdriver.chrome(executable_path='chromedriver.exe')

# 对指定的url发起请求
bor.get('https://www.jd.com/')
sleep(1)
# 进行标签定位
search_input = bor.find_element_by_id('key')

# 向搜索框中录入关键词
search_input.send_keys("mac pro")

# 点击搜索按钮
btn = bor.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
btn.click()
sleep(2)

# 执行js，让滚轮向下滚动
bor.execute_script('window.scrollto(0, document.body.scrollheight)')
sleep(2)

page_text = bor.page_source

print(page_text)

bor.quit()

浏览器创建

selenium支持非常多的浏览器，如chrome、firefox、edge等，还有android、blackberry等手机端的浏览器。另外，也支持无界面浏览器phantomjs。

from selenium import webdriver
 
browser = webdriver.chrome()
browser = webdriver.firefox()
browser = webdriver.edge()
browser = webdriver.phantomjs()
browser = webdriver.safari()

元素定位

webdriver 提供了一系列的元素定位方法，常用的有以下几种：

定位一个元素	定位多个元素	含义
find_element_by_id	find_elements_by_id	通过元素id定位
find_element_by_name	find_elements_by_name	通过元素name定位
find_element_by_xpath	find_elements_by_xpath	通过xpath表达式定位
find_element_by_link_text	find_elements_by_link_tex	通过完整超链接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	通过部分链接定位
find_element_by_tag_name	find_elements_by_tag_name	通过标签定位
find_element_by_class_name	find_elements_by_class_name	通过类名进行定位
find_elements_by_css_selector	find_elements_by_css_selector	通过css选择器进行定位

注意：

1、find_element_by_xxx找的是第一个符合条件的标签，find_elements_by_xxx找的是所有符合条件的标签。

2、根据id、css选择器和xpath获取，它们返回的结果完全一致。

3、另外，selenium还提供了通用方法find_element()，它需要传入两个参数：查找方式by和值。实际上，它就是find_element_by_id()这种方法的通用函数版本，比如find_element_by_id(id)就等价于find_element(by.id, id)，二者得到的结果完全一致。

实例演示

假如有一个web页面，通过前端工具查看到一个元素的属性是这样的。

<html>
 <head>
 <body link="#0000cc">
 <a href="/" rel="external nofollow" onmousedown="return c({'fm':'tab','tab':'logo'})">
 <form name="f" action="/s">
  <span ></span>
  <input name="wd" value="" maxlength="255" autocomplete="off">

通过id定位：

dr.find_element_by_id("kw")

通过name定位：

dr.find_element_by_name("wd")

通过class name定位：

dr.find_element_by_class_name("s_ipt")

通过tag name定位：

dr.find_element_by_tag_name("input")

通过xpath定位，xpath定位有n种写法，这里列几个常用写法：

dr.find_element_by_xpath("//*[@]")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@]")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@]/input")
dr.find_element_by_xpath("//form[@]/span/input")
dr.find_element_by_xpath("//input[@ and @name='wd']")

通过css定位，css定位有n种写法，这里列几个常用写法：

dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

假如页面上有如下一组文本链接

<a href="http://news.baidu.com" rel="external nofollow" name="tj_trnews">新闻</a>
<a href="http://www.hao123.com" rel="external nofollow" name="tj_trhao123">hao123</a>

通过link text定位：

dr.find_element_by_link_text("新闻")
dr.find_element_by_link_text("hao123")

通过partial link text定位：

dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

控制浏览器

常用的控制浏览器操作的一些方法

方法	说明
set_window_size()	设置浏览器的大小
back()	控制浏览器后退
forward()	控制浏览器前进
refresh()	刷新当前页面
clear()	清除文本
send_keys (value)	模拟按键输入
click()	单击元素
submit()	用于提交表单
get_attribute(name)	获取元素属性值
is_displayed()	设置该元素是否用户可见
size	返回元素的尺寸
text	获取元素的文本

📝 示例

from selenium import webdriver

from time import sleep
#1.创建chrome浏览器对象，这会在电脑上在打开一个浏览器窗口

browser = webdriver.chrome(executable_path= "chromedriver.exe")

#2.通过浏览器向服务器发送url请求
browser.get("https://www.baidu.com/")

sleep(3)

#3.刷新浏览器
browser.refresh()

#4.设置浏览器的大小
browser.set_window_size(1400,800)

#5.设置链接内容
element=browser.find_element_by_link_text("新闻")
element.click()

调用javascript代码

虽然webdriver提供了操作浏览器的前进和后退方法，但对于浏览器滚动条并没有提供相应的操作方法。在这种情况下，就可以借助javascript来控制浏览器的滚动条。webdriver提供了execute_script()方法来执行javascript代码。

用于调整浏览器滚动条位置的javascript代码如下：

<!-- window.scrollto(左边距,上边距); -->
window.scrollto(0,450);

from selenium import webdriver
from time import sleep

# 1.访问百度
drive = webdriver.chrome(executable_path='chromedriver.exe')
drive.get('https://www.baidu.com')

# 2.搜索
drive.find_element_by_id('kw').send_keys('python')
drive.find_element_by_id('su').click()

# 3.休眠2s,获取服务器的响应内容
sleep(2)

# 4.通过javascript设置浏览器窗口的滚动条位置
drive.execute_script('window.scrollto(0, 500)')
# drive.execute_script('window.scrollto(0, document.body.scrollheight)') #滑到最底部

sleep(2)
drive.close()

获取页面源码数据

通过page_source属性可以获取网页的源代码，接着就可以使用解析库（如正则表达式、beautiful soup、pyquery等）来提取信息了。

📝 示例

from selenium import webdriver
from time import sleep

# 1.访问百度
drive = webdriver.chrome(executable_path='chromedriver.exe')
drive.get('https://www.baidu.com')

# 2.搜索
drive.find_element_by_id('kw').send_keys('python')
drive.find_element_by_id('su').click()

# 3.休眠2s,获取服务器的响应内容
sleep(2)

# 4.获取页面源码数据
text = drive.page_source
print(text)

drive.close()

cookie操作

有时候我们需要验证浏览器中cookie是否正确，因为基于真实cookie的测试是无法通过白盒和集成测试进行的。webdriver提供了操作cookie的相关方法，可以读取、添加和删除cookie信息。

webdriver操作cookie的方法：

方法	说明
get_cookies()	获得所有cookie信息
get_cookie(name)	返回字典的key为“name”的cookie信息
add_cookie(cookie_dict)	添加cookie。“cookie_dict”指字典对象，必须有name 和value 值
delete_cookie(name,optionsstring)	删除cookie信息。“name”是要删除的cookie的名称，“optionsstring”是该cookie的选项，目前支持的选项包括“路径”，“域”
delete_all_cookies()	删除所有cookie信息

📝 示例

from selenium import webdriver
drive = webdriver.chrome(executable_path='chromedriver.exe')
drive.get('https://www.cnblogs.com/')

# 1.打印cookie信息
print(drive.get_cookies())

# 2.添加cookie信息
dic = {'name':'name', 'value':'python'}
drive.add_cookie(dic)
print(drive.get_cookies())

# 3.遍历打印cookie信息
for cookie in drive.get_cookies():
 print(f"{cookie['name']}---f{cookie['value']}\n")

drive.close()

谷歌无头浏览器

phantomjs已停止维护更新，这里使用谷歌的无头浏览器，是一款无界面的谷歌浏览器。很多时候我们爬取数据，并不想打开一个浏览器窗口进行操作，我们只需要获取数据或者拿到cookie然后进行操作。

📝 示例

from selenium import webdriver
from selenium.webdriver.chrome.options import options

# 1.创建一个参数对象，用来控制chrome以无界面模式打开
chrome_options = options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

# 2.创建浏览器对象
drive = webdriver.chrome(executable_path='chromedriver.exe', chrome_options=chrome_options)

# 3.发起请求获取数据
drive.get('https://www.cnblogs.com/')

page_text = drive.page_source
print(page_text)

drive.close()

selenium规避被检测识别

现在不少大网站有对selenium采取了监测机制。比如正常情况下我们用浏览器访问淘宝等网站的 window.navigator.webdriver的值为 undefined。而使用selenium访问则该值为true。那么如何解决这个问题呢？

只需要设置chromedriver的启动参数即可解决问题。在启动chromedriver之前，为chrome开启实验性功能参数excludeswitches，它的值为['enable-automation']，完整代码如下：

📝 示例

from selenium import webdriver
from selenium.webdriver import chromeoptions

# 1.实例化一个chromeoptions对象
option = chromeoptions()
option.add_experimental_option('excludeswitches', ['enable-automation'])

# 2.将chromeoptions实例化的对象option作为参数传给crhome对象
driver = webdriver.chrome(executable_path='chromedriver.exe', options=option)

# 3.发起请求
driver.get('https://www.taobao.com/')

到此这篇关于python中selenium库使用教程详解的文章就介绍到这了,更多相关python selenium库使用内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

动态规划_leetcode.64.最小路径和

题目给定一个包含非负整数的 m x n 网格，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。说明... [阅读全文]
Flask学习笔记（十六）Flask—Mail

Flask—Mail在开发过程中，很多应用程序都需要通过邮件提醒用户，Flask的扩展包Flask-Mail通过... [阅读全文]
python 05异常处理

python 05 异常处理练习题：题目描述:电脑产生一个零到100之间的随机数字，然后让用户来猜，如果用户猜的... [阅读全文]
Python基础打卡第一天

python打卡第一天变量变量名需要注意的点：①不能是关键字，比如：and、if、else等②变量名不能以数字开... [阅读全文]
Django入门实战——实现个人博客

慕课网Django三小时入门，视频链接鸭~个人学习笔记，如有错误，欢迎指正。在python web开发领域有三个... [阅读全文]
[机器学习] Yellowbrick使用笔记1-快速入门

Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库，能够提供多种机器学习算法的可视... [阅读全文]
win10+python+zed相机

文章目录win10+Python+ZED相机环境配置sdk下载安装相应的库文件编译sdk中的文件demo演示wi... [阅读全文]
异常处理的笔记以及课后

笔记1.phython标准异常总结：BaseException：所有异常的基类Exception：常规异常的 ... [阅读全文]
[AI数据]数据增强之路

1.维度位置增强(包括Scaling/Cropping/Flipping/Padding/Rotation/Tr... [阅读全文]
Python之Pandas and Numpy 吐血整理（持续更新！！！）

文章目录Pandas基本用法Numpy基本用法介绍不多说，用法全部写在代码里了！！！欢迎收藏，持续更新！！！Pa... [阅读全文]

网友评论


验证码：

Python中Selenium库使用教程详解

2020年07月23日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论