当前位置: 移动技术网 > IT编程>脚本编程>Python > Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

2020年03月14日  | 移动技术网IT编程  | 我要评论

相机品牌排名,4008004008,亨利八世大武斗

一、动态html

1.爬虫跟反爬虫

2.动态html连载

(1)javascript

(2)jquery

(3)ajax

(4)dhtml

(5)python采集动态数据

从javascript代码入手采集​;python第三方库运行javascript,直接采集你在浏览器中看到的页面

二、selenium + phantomjs

1.selenium:web自动化测试工具

(1)​自动加载页面;(2)​获取数据;(3)截屏

​(4)官方文档:http://selenium-python.readthedocs.io/

2.phantomjs

(1)基于webkit的无界面的浏览器

(2)​官方网站:http://phantomjs.org/download.html

3.selenium库有一个webdriver的api

4.webdriver可以跟页面上的元素进行各种交互,用它可以来进行爬取

 

"""

通过webdriver操作模拟进行查找

"""

from selenium import webdriver

import time

#通过keys模拟键盘

from selenium.webdriver.common.keys import keys

#操作哪个浏览器就对哪个浏览器建立一个实例

#自动按照环境变量查找相应的浏览器

driver = webdriver.phantomjs()#这个就是浏览器的实例

#如果浏览器没有相应的环境浏览器,需要指定浏览器位置

driver.get("http://www.baidu.com")#去访问这个网站,然后获取返回的数据

#通过函数查找title标签

print("title:{0}".format(driver.title))

5.chrome + chromedriver

下载chrome​:下载和安装

chromdriver​安装

五、源码

reptile14_1_dhtml.py

https://github.com/ruigege66/pythonreptile/blob/master/reptile14_1_dhtml.py

2.csdn:https://blog.csdn.net/weixin_44630050

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

 

 

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网