当前位置: 移动技术网 > IT编程>开发语言>PHP > 利用php抓取蜘蛛爬虫痕迹的示例代码

利用php抓取蜘蛛爬虫痕迹的示例代码

2017年12月12日  | 移动技术网IT编程  | 我要评论

蜀南网,绥棱到哈尔滨,广场舞愤怒的情人

前言

相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧。

示例代码

<?php
//获取蜘蛛爬虫名或防采集
function isspider(){
  $bots = array(
          'google'  => 'googlebot',
          'baidu'    => 'baiduspider',
          'yahoo'    => 'yahoo slurp',
          'soso'    => 'sosospider',
          'msn'    => 'msnbot',
          'altavista'  => 'scooter ',
          'sogou'    => 'sogou spider',
          'yodao'    => 'yodaobot'
      );
  $useragent = strtolower($_server['http_user_agent']);
  foreach ($bots as $k => $v){
    if (strstr($v,$useragent)){
      return $k;
      break;
    }
  }
  return false;
} 
//获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
//根据采集时http_user_agent是否为空来防止采集
//抓蜘蛛爬虫
$spi  = isspider();
if($spi){
  $tlc_thispage  = addslashes($_server['http_user_agent']);
  $file      = 'robot.txt';
  $time      = date('y-m-d h:i:s',mktime());
  $handle      = fopen($file,'a+');
  $pr        = $_server['request_uri'];
  fwrite($handle, "time:{$time} robot:{$spi} agent:{$tlc_thispage} url:{$pr} \n\r");
  fclose($handle);
}
?>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有问题大家可以留言交流。

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网