当前位置：移动技术网 > 网络运营>推广>网站优化 > php爬虫：百万级别知乎用户数据爬取与分析

php爬虫：百万级别知乎用户数据爬取与分析

2015年09月30日 | 移动技术网网络运营 | 我要评论

代码托管地址：

文/hector

这次抓取了110万的用户数据，数据分析结果如下：

开发前的准备

安装linux系统(ubuntu14.04)，在vmware虚拟机下安装一个ubuntu;

安装php5.6或以上版本;

安装curl、pcntl扩展。

使用php的curl扩展抓取页面数据

php的curl扩展是php支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

一个个地复制，以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

初始的示例：

运行上面的代码可以获得mora-hu用户的个人中心页面。利用该结果再使用正则表达式对页面进行处理，就能获取到姓名，性别等所需要抓取的信息。

图片防盗链

在对返回结果进行正则处理后输出个人信息的时候，发现在页面中输出用户头像时无法打开。经过查阅资料得知，是因为知乎对图片做了防盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的链接之后，再发一次请求，这时候带上图片请求的来源，说明该请求来自知乎网站的转发。具体例子如下：

function getimg($url, $u_id){    
    if (file_exists('./images/' . $u_id . ".jpg"))    
    {       
       return "images/$u_id" . '.jpg';    }    if (empty($url))    
    {        
       return ''; 
    }
    $context_options = array(         
 'http' =>          array(
            'header' => "referer:"//带上referer参数     )
);
          $context = stream_context_create($context_options);
      $img = file_get_contents('http:' . $url, false, $context);
    file_put_contents('./images/' . $u_id . ".jpg", $img);
    return "images/$u_id" . '.jpg';}

爬取更多用户

抓取了自己的个人信息后，就需要再访问用户的关注者和关注了的用户列表获取更多的用户信息。然后一层一层地访问。可以看到，在个人中心页面里，有两个链接如下：

这里有两个链接，一个是关注了，另一个是关注者，以“关注了”的链接为例。用正则匹配去匹配到相应的链接，得到url之后用curl带上cookie再发一次请求。抓取到用户关注了的用于列表页之后，可以得到下面的页面：

分析页面的html结构，因为只要得到用户的信息，所以只需要框住的这一块的div内容，用户名都在这里面。可以看到，用户关注了的页面的url是：

不同的用户的这个url几乎是一样的，不同的地方就在于用户名那里。用正则匹配拿到用户名列表，一个一个地拼url，然后再逐个发请求(当然，一个一个是比较慢的，下面有解决方案，这个稍后会说到)。进入到新用户的页面之后，再重复上面的步骤，就这样不断循环，直到达到你所要的数据量。

linux统计文件数量

脚本跑了一段时间后，需要看看究竟获取了多少图片，当数据量比较大的时候，打开文件夹查看图片数量就有点慢。脚本是在linux环境下运行的，因此可以使用linux的命令来统计文件数量：

其中，ls -l是长列表输出该目录下的文件信息(这里的文件可以是目录、链接、设备文件等);grep "^-"过滤长列表输出信息，"^-" 只保留一般文件，如果只保留目录是"^d";wc -l是统计输出信息的行数。下面是一个运行示例：

插入mysql时重复数据的处理

程序运行了一段时间后，发现有很多用户的数据是重复的，因此需要在插入重复用户数据的时候做处理。处理方案如下：

1)插入数据库之前检查数据是否已经存在数据库;

2)添加唯一索引，插入时使用insert into ... on duplicate key update...

3)添加唯一索引，插入时使用insert ingnore into...

4)添加唯一索引，插入时使用replace into...

使用curl_multi实现i/o复用抓取页面

刚开始单进程而且单个curl去抓取数据，速度很慢，挂机爬了一个晚上只能抓到2w的数据，于是便想到能不能在进入新的用户页面发curl请求的时候一次性请求多个用户，后来发现了curl_multi这个好东西。curl_multi这类函数可以实现同时请求多个url，而不是一个个请求，这是一种i/o复用的机制。下面是使用curl_multi爬虫的示例：

http 429 too many requests

使用curl_multi函数可以同时发多个请求，但是在执行过程中使同时发200个请求的时候，发现很多请求无法返回了，即发现了丢包的情况。进一步分析，使用curl_getinfo函数打印每个请求句柄信息，该函数返回一个包含http response信息的关联数组，其中有一个字段是http_code，表示请求返回的http状态码。看到有很多个请求的http_code都是429，这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护，于是我就拿其他的网站来做测试，发现一次性发200个请求时没问题的，证明了我的猜测，知乎在这方面做了防护，即一次性的请求数量是有限制的。于是我不断地减少请求数量，发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多只能发5个请求，虽然不多，但这也是一次小提升了。

使用redis保存已经访问过的用户

抓取用户的过程中，发现有些用户是已经访问过的，而且他的关注者和关注了的用户都已经获取过了，虽然在数据库的层面做了重复数据的处理，但是程序还是会使用curl发请求，这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行，刚开始是放到数组里面，后来发现要在程序里添加多进程，在多进程编程里，子进程会共享程序代码、函数库，但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变量是分离的，不能被其他进程读取，所以是不能使用数组的。因此就想到了使用redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候都把用户push到一个already_request_queue队列中，把待抓取的用户(即每个用户的关注者和关注了的用户列表)push到request_queue里面，然后每次执行前都从request_queue里pop一个用户，然后判断是否在already_request_queue里面，如果在，则进行下一个，否则就继续执行。

在php中使用redis示例：

使用php的pcntl扩展实现多进程

改用了curl_multi函数实现多线程抓取用户信息之后，程序运行了一个晚上，最终得到的数据有10w。还不能达到自己的理想目标，于是便继续优化，后来发现php里面有一个pcntl扩展可以实现多进程编程。下面是多编程编程的示例：

在linux下查看系统的cpu信息

实现了多进程编程之后，就想着多开几条进程不断地抓取用户的数据，后来开了8调进程跑了一个晚上后发现只能拿到20w的数据，没有多大的提升。于是查阅资料发现，根据系统优化的cpu性能调优，程序的最大进程数不能随便给的，要根据cpu的核数和来给，最大进程数最好是cpu核数的2倍。因此需要查看cpu的信息来看看cpu的核数。在linux下查看cpu的信息的命令：

其中，model name表示cpu类型信息，cpu cores表示cpu核数。这里的核数是1，因为是在虚拟机下运行，分配到的cpu核数比较少，因此只能开2条进程。最终的结果是，用了一个周末就抓取了110万的用户数据。

多进程编程中redis和mysql连接问题

在多进程条件下，程序运行了一段时间后，发现数据不能插入到数据库，会报mysql too many connections的错误，redis也是如此。

下面这段代码会执行失败：

         <?php

     for ($i = 0; $i < 10; $i++) {
          $pid = pcntl_fork();
          if ($pid == -1) {
               echo "could not fork!\n";
               exit(1);
          }
          if (!$pid) {
               $redis = predis::getinstance();
               // do something                    exit;
          }
     }

根本原因是在各个子进程创建时，就已经继承了父进程一份完全一样的拷贝。对象可以拷贝，但是已创建的连接不能被拷贝成多个，由此产生的结果，就是各个进程都使用同一个redis连接，各干各的事，最终产生莫名其妙的冲突。

解决方法：

程序不能完全保证在fork进程之前，父进程不会创建redis连接实例。因此，要解决这个问题只能靠子进程本身了。试想一下，如果在子进程中获取的实例只与当前进程相关，那么这个问题就不存在了。于是解决方案就是稍微改造一下redis类实例化的静态方式，与当前进程id绑定起来。

改造后的代码如下：

php统计脚本执行时间

因为想知道每个进程花费的时间是多少，因此写个函数统计脚本执行时间：

若文中有不正确的地方，望各位指出以便改正。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

地方网络公司的困境：如何扩展客户

地方网络公司的业务范围主要是网站建设和百度优化，服务的对象是中小型企业，以我所在的城市为例：大大小小的网络公司就有几十家。在前几年网站建设的需求量非常大，网络公... [阅读全文]
网站移动化迫在眉睫网站主如何借助2014网站移动化大赛发展自己？

中国移动互联网快速的发展带来了大量的创业机会，让广大的创业者们拥有了更加广阔的创新空间，但也给传统的PC互联网时代的霸主们带来了巨大的压力。在PC互联网中，搜索... [阅读全文]
淘宝运营：一天突破十四万展现的淘宝客秘诀

导读：淘宝客推广作为CPS，先成交后付费的的模式获得了很多商家的喜爱，不花一分多余的钱，让推广费用花得更有价值。然而，这么精准的推广投放，流量则成了最大的问题。... [阅读全文]
微信小店的横空出世，Mini C2C的崛起

导语：微信电商的最大的价值不是阿里的B2B，也不是京东的B2C，还不是淘宝传统的C2C，而是MiniC2C,这才是对未来商业的真正颠覆一句话总结，微信小店的出世... [阅读全文]
运营解析：“微信小店”是闹腾，还是实干

这些天想必大家最关心的莫过于微信小店吧。之前一直听闻微信的每一个举措，每一个新功能的添加都有可能对第三方造成极大地影响，如今看来这句话并非空穴来风。当微信开通小... [阅读全文]
信息孤岛终结流量思维：99% 小商家将无法玩转微信电商

在中国经济还处在改革开放起步阶段的时候，创业只要敢做就能挣钱;在中国网购还处在草莽发展阶段的时候，把东西放淘宝上就能卖货。前者可以归结为政策红利以及人口红利，后... [阅读全文]
微信电商谁人失眠？微信剑指的不是淘宝店而是要抄天猫的底

昨天(5月29日)下午，微信在官网发布了微信小店新功能，通过认证且已接入微信支付的服务号可以申请开通微信小店功能，实现快速添加商品、商品管理、订单管理、货架管理... [阅读全文]
淘宝客还好做吗？现在的淘宝客网站该如何做？

这段时间看见淘宝封杀返利链接，还有很多淘宝商家天天到我互传站长论坛发招募淘宝客的广告贴，几乎天天都来，真是屡禁不止。随着淘宝的开店的竞争越来越大，流量成本也越来... [阅读全文]
如何来攻克钻展的第一大难题——点击成本

因为钻展是按照千次展现来收费，所以点击成本对于钻展的推广成效是至关重要的，很多钻展专员几乎都把降低点击成本作为最重要的事情来做，即便是笔者所熟悉的一位已经花费超... [阅读全文]
独立博客在网站优化中发展潜力巨大

独立博客在网站优化中发展潜力巨大 [阅读全文]

网友评论


验证码：

php爬虫：百万级别知乎用户数据爬取与分析

2015年09月30日 | 移动技术网网络运营 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论