当前位置：移动技术网 > 网络运营>安全>网站优化 > 简单的分析一下百度蜘蛛的日常工作习性

简单的分析一下百度蜘蛛的日常工作习性

2019年03月21日 | 移动技术网网络运营 | 我要评论

搜索引擎用来爬行和访问页面的程序被称为蜘蛛工，也称为机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后，服务器返回html代码，蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。
　　一、robots.txt文件
　　蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜素引擎抓取某些文件或目录。蜘蛛将遵守协议，不抓取被禁止的网址。
　　和浏览器一样，搜索引擎蜘蛛也有标明自己身份的代理名称，站长可以在日志文件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。下面列出常见的搜索引攀蜘蛛名称：
　　二、跟踪链接
　　为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。
　　整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
　　最简单的爬行遍历策略分为两种，一种是深度优先，另一种是广度优先。
　　所谓深度优先，指的是蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。
　　蜘蛛跟踪链接，从a页面爬行到al，a2，a3，a4，到a4页面后，己经没有其他链接可以跟踪就返回a页面，顺着页面上的另一个链接，爬行到b1，b2,b3，b4。在深度优先策略中，蜘蛛一直爬到无法再向前，才返回爬另一条线。
　　广度优先是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。比如，我的一个站点，股票入门大家可以去看下，研究下。
　　还有就是蜘蛛从a页面顺着链接爬行到al，b1，c1页面，直到a页面上的所有链接都爬行完，然后再从a1页面发现的下一层链接，爬行到a2 ，a3，a4，从理论上说，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，都能爬完整个互联网。在实际工作中，蜘蛛的带宽资源，时间都不是无限的。也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

通过博客等平台让网站流量和转化率快速提高的方法

给大家分享一下如何用站内博客做网站权重和优化，让网站流量和转化率明显提高的方法，还有就是利用博客做外链的方法。... 17-11-13 [阅读全文]
利用高权重网站借力操作关键词快速排名 SEO实战干货分享

不管是做微商、还是做项目、还是网站引流，SEO永远是最有价值并且为免费流量的聚集地，目前很多SEO新人都在寻找快速有效的排名技巧，这里小编就为大家整理利用高权重... [阅读全文]
百度清风算法解读之标题书写和分页面类型标题建议

百度搜索在2017年底发布一种算法清风算法，清风算法的意图是在严惩网站通过网页标题作弊，欺骗用户并获得点击量;所以写好标题对一篇文章至关重要，在此文中给大家提到... [阅读全文]
如何利用百度长尾高指数关键词,提高网站百度权重

近日，很多网友咨询小编什么是百度权重？什么是百度指数词?百度权重和指数的关系?今天脚本之家小编就给大家说说如何利用百度长尾高指数关键词,提高网站百度权重... ... [阅读全文]
2017年草根站长做SEO优化新型思维及技巧

2017年，作为草根站长的我们应该如何更好的适应SEO新环境呢?今天脚本之家小编就给大家带来2017年草根站长做SEO优化新型思维及技巧，感兴趣的朋友可以看看.... [阅读全文]
网站流量异常变动的8种常见原因及建议

本篇文章汇总了7种最常见的网站流量异常变动的原因。在进行复杂的细分和假设之前先来看下这7个原因，可能会减少你很多不必要的工作。如果这7个原因都被排除了，再开始你... [阅读全文]
切记：SEO中的这十个致命错误会让用户逃离你的网站

随着SEO的不断发展，现在越来越注重用户体验了，一个好的用户体验可以提升网站转换率，同时也会让网站排名上升，而SEO中的这十个致命错误会让用户逃离你的网站，有兴... [阅读全文]
为什么要重提“内容为王”？

自从互联网行业开始起步，到现在为止，一直都是非常重要的。搜狐、网易、新浪这三大门户当初发家致富就是靠新闻资讯，新闻资讯很明显是内容。而优酷、爱奇艺的发展也明显走... [阅读全文]
如何有效的运营教育类网站?

现在孩子教育都是家长最关心的事情，我们如果做的就是高考培训或者中考培训，我们就要把关键词主要针对这部分的群体。那么，教育类网站建设从哪些方面考虑，又该如何做运营... [阅读全文]
APP推广怎么做产品才能激发用户主动传播的欲望

怎么做产品，才能激发用户主动传播的欲望？在运营一个产品的过程中，我们经常会听到“自传播性”的字眼，那自传播到底是什么呢... 17-03-31 [阅读全文]

网友评论


验证码：

简单的分析一下百度蜘蛛的日常工作习性

2019年03月21日 | 移动技术网网络运营 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论