当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫介绍

爬虫介绍

2019年10月20日 | 移动技术网IT编程 | 我要评论

神偷国舅不安乐,出售,香池泽

前言：该系列为爬虫基础，适合没有接触过python或刚刚起步的同学，如有错误，欢迎指出。

--爬虫的定义：

通过编写程序，模拟浏览器行为浏览网页，获取互联网上的数据，也称为蜘蛛，如：百度；谷歌，都是爬虫。

注意：

爬虫是python的一个分支或者说方向，个人自学python(爬虫)两年，从0-1，一步一步走来，明白其中的辛苦，若你没有大毅力，就不要自学了；给初学者的建议：第一语言不要学习python，(个人见解，不喜勿喷)。

--爬虫的分类：

通用爬虫：获取的只是一个url(网址)下的页面数据；
聚焦爬虫：根据指定的需求获取页面中指定的局部数据；
增量式爬虫：用来监测网站数据更新的情况。

--概念混淆：

反爬机制：网站可以采用相关的技术手段或者策略阻止爬虫对网站的数据获取(代码报错)。
反反爬策略：让爬虫程序伪装(破解)网站限制并获得数据。

--robots协议：君子协议，里面限制了哪些可爬，哪些不可爬，但是你可以不用遵守。

如淘宝下的robots.txt :

--爬虫流程的概括：

获取网页源码 ===》urllib、requests
提取所需要的业务数据 ==》beautifulsoup、xpath、css选择器、pyquery
保存数据 ===》 json、csv、txt(文件存储)等；
自动化程序

--url(统一资源定位符，俗称网址)

url的全称感兴趣的可以了解一下，我们主要解释一下它是做什么的，我们每天网上冲浪，百度了解一下，我们在浏览器的输入框=》这就是url。
如：，我们用url来唯一指定它的访问方式，这其中包括了访问协议https、访问路径和资源名称，通过这样的链接，我们便可以从互联网上找到资源，这就是url.

--超文本(html)

你打开一个网址如：;你所看见的页面正是通过html以及其他的语言渲染出来的，我们右击->查看网页源代码；或者按f12你会发现有代码出现，里面就包括html代码。

--http/https协议介绍

概念：http协议就是服务器端(网站的服务器)与客户端(自己的电脑)之间进行数据交互的一种方式。

http工作原理：http协议工作在客户端-服务端交媾之上的；浏览器作为http客户端通过url向http服务端即web服务器发送所有请求；web服务器根据接收到的请求后，向客户端发送响应信息。

常见的请求头信息：

accept:浏览器通过这个头告诉服务器，它所支持的数据类型accept-charset: 浏览器通过这个头告诉服务器，它支持哪种字符集
accept-encoding：浏览器通过这个头告诉服务器，支持的压缩格式
accept-language：浏览器通过这个头告诉服务器，它的语言环境
host：浏览器通过这个头告诉服务器，想访问哪台主机
if-modified-since: 浏览器通过这个头告诉服务器，缓存数据的时间
referer：浏览器通过这个头告诉服务器，客户机是哪个页面来的 防盗链
connection：浏览器通过这个头告诉服务器，请求完后是断开链接还是何持链接
x-requested-with: xmlhttprequest 代表通过ajax方式进行访问
user-agent：请求载体的身份标识

常见的响应头信息：

location: 服务器通过这个头，来告诉浏览器跳到哪里
server：服务器通过这个头，告诉浏览器服务器的型号
content-encoding：服务器通过这个头，告诉浏览器，数据的压缩格式
content-length: 服务器通过这个头，告诉浏览器回送数据的长度
content-language: 服务器通过这个头，告诉浏览器语言环境
content-type：服务器通过这个头，告诉浏览器回送数据的类型
refresh：服务器通过这个头，告诉浏览器定时刷新
content-disposition: 服务器通过这个头，告诉浏览器以下载方式打数据
transfer-encoding：服务器通过这个头，告诉浏览器数据是以分块方式回送的
expires: -1 控制浏览器不要缓存

关于怎么查看请求头信息/响应头信息，我会在后面出专门的文章来解惑。
关于https协议定义：https 安全超文本传输协议，https是在http上建立ssl加密层，并对传输数据进行加密，是http协议的安全版。
https的加密算法算法包括（简略）：
1. 对称密钥加密
2. 非对称密钥加密
3. 证书密钥加密

--cookies简单介绍介绍

cookie 是浏览器访问服务器后，服务器传给浏览器的一段数据；
浏览器需要保存这段数据，不得轻易删除；
此后每次浏览器访问该服务器，都必须带上这段数据，这样才能证明你就是你；
详情了解请自行百度，后续会介绍cookies的用法。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

爬虫介绍

2019年10月20日 | 移动技术网IT编程 | 我要评论

前言：该系列为爬虫基础，适合没有接触过python或刚刚起步的同学，如有错误，欢迎指出。

您可能感兴趣的文章:

相关文章:

网友评论