万芳得,胖九点com,汽车城报价
spider-01-爬虫介绍
python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求
爬虫准备工作
- 参考资料
- 精通python爬虫框架scrapy,人民邮电出版社
基础知识
- url, http
- web前端,html,css,js
- ajax
- re,xpath
- xml
python 爬虫简介
- 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
- 两大特征
- 能按照作者要求下载数据
- 能自动在网络上流窜
- 三大步骤
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步操作
爬虫分类
- 通用爬虫:
不分类,比如百度搜索引擎,我们通过百度输入数据,获取百度爬虫从各种网站爬到的数据
- 专用爬虫(聚焦爬虫) :
就是我们介绍的,关于某一类的数据,比如说,需要爬智联招聘网站,某地区的招聘信息
python网络包简介
- python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
- python3.* :urllib, urllib3, httplib2, requests
- python2:urllib, urllib2配合使用,或者requests
- python3:urllib,requests
我的爬虫笔记
- 本笔记学习于图灵学院python全栈课程
- 本笔记不允许任何个人和组织转载
如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!!
点击进行留言回复
相关文章:
-
-
python如何查看网页代码
用python查看网页代码的方法:1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页...
[阅读全文]
-
-
python如何保存文本文件
python保存文本文件的方法:使用python内置的open()类可以打开文本文件,向文件里面写入数据可以用write()函数,写完之后,使用close()函...
[阅读全文]
-
python如何编写win程序
python可以编写win程序。win程序的格式是exe,下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将...
[阅读全文]
-
-
-
-
-
-
网友评论