当前位置：移动技术网 > IT编程>开发语言>JavaScript > 利用node.js爬取指定排名网站的JS引用库详解

利用node.js爬取指定排名网站的JS引用库详解

2017年12月12日 | 移动技术网IT编程 | 我要评论

前言

本文给大家介绍的爬虫将从网站爬取排名前几的网站，具体前几名可以具体设置，并分别爬取他们的主页，检查是否引用特定库。下面话不多说了，来一起看看详细的介绍：

所用到的node主要模块

express 不用多说
request http模块
cheerio 运行在服务器端的jquery
node-inspector node调试模块
node-dev 修改文件后自动重启app

关于调试node

在任意一个文件夹，执行node-inspector，通过打开特定页面，在页面上进行调试，然后运行app，使用node-dev app.js来自动重启应用。

所碰到的问题

1. request请求多个页面

由于请求是异步执行的，和分别返回3个页面的数据，这里只爬取了50个网站，一个页面有20个，所以有3页，通过循环里套request请求，来实现。

通过添加请求头可以实现基本的反爬虫

处理数据的方法都写在analydata()里面，造成后面的数据重复存储了，想了很久，才想到一个解决方法，后面会写到是怎么解决的。

for (var i = 1; i < len+1; i++) {
 (function(i){
 var options = {
 url: 'http://www.alexa.cn/siterank/' + i,
 headers: {
 'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/59.0.3071.115 safari/537.36'
 }
 };
 request(options, function (err, response, body) {
 analydata(body,rank);
 })
 })(i)
 }

2. 多层回调

仔细观察代码，你会发现，处理数据的方法使用了如下的多层回调，也可以不使用回调，写在一个函数内部；因为，每层都要使用上一层的数据，造成了这样的写法。

function f1(data1){
 f2(data1);
}


function f2(data2){
 f3(data2);
}


function f3(data3){
 f4(data4);
}

3. 正则获取js库

由于获取页面库，首先需要获取到script的src属性，然后通过正则来实现字符串匹配。

<script src="https://ss0.bdstatic.com/5av1bjqh_q23odcf/static/superman/js/lib/jquery-1.10.2_d88366fd.js"></script>

获取到的script可能是上面这样的，由于库名的命名真是各种各样，后来想了一下，因为文件名是用.js结尾的，所以就以点号为结尾，然后把点号之前的字符截取下来，这样获得了库名，代码如下。

var reg = /[^\/\\]+$/g;
var libname = jslink.match(reg).join('');
var libfilter = libname.slice(0,libname.indexof('.'));

4.cheerio模块获取js引用链接

这部分也花了一点时间，才搞定，cheerio获取dom的方法和jquery是一样的，需要对返回的dom对象进行查看，就可以看到对象里隐藏好深的href属性，方法大同小异，你也可以使用其他选择器，选择到script标签

var $ = cheerio.load(body);
var scriptfile = $('script').toarray();


scriptfile.foreach(function(item,index){
 if (item.attribs.src != null) {
 obtainlibname(item.attribs.src,index);
}

5.存储数据到数据库

存储数据的逻辑是先获取所有的script信息，然后push到一个缓存数组，由于push后面，紧跟着存储到数据库的方法，这两个方法都写在循环里面的，例如爬取5个网站，每个网站存储一次，后面也会跟着存储，造成数据重复存储。解决方法是存储数据的一般逻辑是先查，再存，这个查比较重要，查询的方法也有多种，这里主要是根据库名来查找唯一的数据对象，使用findone方法。注意，由于node.js是异步执行的，这里的闭包，每次只传一个i值进去，执行存储的操作。

// 将缓存数据存储到数据库
function store2db(libobj){
 console.log(libobj);
 for (var i = 0; i < libobj.length; i++) {
 (function(i){
 var jslib = new jslib({
 name: libobj[i].lib,
 libsnum: libobj[i].num
 });
 
 jslib.findone({'name': libobj[i].lib},function(err,libdoc){
 if(err) console.log(err);
 // console.log(libdoc)
 if (!libdoc){
 jslib.save(function(err,result){
 if(err) console.log('保存数据出错' + err);
 });
 }

 })
 })(i)
 }
 console.log('一共存储' + libobj.length + '条数据到数据库');
}

6.分页插件

本爬虫前端使用了bootstrap.paginator插件，主要是前台分页，返回数据，根据点击的页数，来显示对应的数据，后期考虑使用ajax请求的方式来实现翻页的效果，这里的注意项，主要是最后一页的显示，最好前面做个判断，因为返回的数据，不一定刚好是页数的整数倍

function _paging(libobj) {
 var ele = $('#page');
 var pages = math.ceil(libobj.length/20);
 console.log('总页数' + pages);
 ele.bootstrappaginator({ 
 currentpage: 1, 
 totalpages: pages, 
 size:"normal", 
 bootstrapmajorversion: 3, 
 alignment:"left", 
 numberofpages:pages, 
 itemtexts: function (type, page, current) { 
 switch (type) { 
 case "first": return "首页"; 
 case "prev": return "上一页"; 
 case "next": return "下一页"; 
 case "last": return "末页"; 
 case "page": return page;
 }
 },
 onpageclicked: function(event, originalevent, type, page){
 // console.log('当前选中第：' + page + '页');
 var phtml = '';
 var endpage;
 var startpage = (page-1) * 20;
 if (page < pages) {
 endpage = page * 20;
 }else{
 endpage = libobj.length;
 }
 for (var i = startpage; i < endpage; i++) {
 phtml += '<tr><td>';
 phtml += (i+1) + '</td><td>';
 phtml += libobj[i].name + '</td><td>';
 phtml += libobj[i].libsnum + '</td></tr>';
 }
 libshow.html(phtml);
 }
 })
 }

完整代码

1. 前端

$(function () {
 var query = $('.query'),
 rank = $('.rank'),
 show = $('.show'),
 querylib = $('.querylib'),
 libshow = $('#libshow'),
 libname = $('.libname'),
 displayresult = $('.displayresult');

 var checklib = (function(){

 function _query(){
 query.click(function(){
 $.post(
 '/query',
 {
 rank: rank.val(),
 },
 function(data){
 console.log(data);
 }
 )
 });
 querylib.click(function(){
 var inputlibname = libname.val();
 if (inputlibname.length == 0) {
 alert('请输入库名~');
 return;
 }
 $.post(
 '/querylib',
 {
 libname: inputlibname,
 },
 function(data){
 if(data.length == 0){
 alert('没有查询到名为' + inputlibname + '的库');
 libname.val('');
 libname.focus();
 libshow.html('')
 return;
 }
 var libhtml = '';
 for (var i = 0; i < data.length; i++) {
 libhtml += '<tr><td>';
 libhtml += (i+1) + '</td><td>';
 libhtml += data[i].name + '</td><td>';
 libhtml += data[i].libsnum + '</td></tr>';
 }
 libshow.html(libhtml);
 }
 )
 });
 }

 function _showlibs(){
 show.click(function(){
 $.get(
 '/getlibs',
 {
 rank: rank.val(),
 },
 function(data){
 console.log('一共返回'+ data.length + '条数据');
 console.log(data)
 var libhtml = '';
 for (var i = 0; i < 20; i++) {
 libhtml += '<tr><td>';
 libhtml += (i+1) + '</td><td>';
 libhtml += data[i].name + '</td><td>';
 libhtml += data[i].libsnum + '</td></tr>';
 }
 displayresult.show();
 libshow.html(libhtml);// 点击显示按钮，显示前20项数据
 _paging(data);
 }
 )
 });
 }

 //翻页器
 function _paging(libobj) {
 var ele = $('#page');
 var pages = math.ceil(libobj.length/20);
 console.log('总页数' + pages);
 ele.bootstrappaginator({ 
 currentpage: 1, 
 totalpages: pages, 
 size:"normal", 
 bootstrapmajorversion: 3, 
 alignment:"left", 
 numberofpages:pages, 
 itemtexts: function (type, page, current) { 
 switch (type) { 
 case "first": return "首页"; 
 case "prev": return "上一页"; 
 case "next": return "下一页"; 
 case "last": return "末页"; 
 case "page": return page;
 }
 },
 onpageclicked: function(event, originalevent, type, page){
 // console.log('当前选中第：' + page + '页');
 var phtml = '';
 var endpage;
 var startpage = (page-1) * 20;
 if (page < pages) {
 endpage = page * 20;
 }else{
 endpage = libobj.length;
 }
 for (var i = startpage; i < endpage; i++) {
 phtml += '<tr><td>';
 phtml += (i+1) + '</td><td>';
 phtml += libobj[i].name + '</td><td>';
 phtml += libobj[i].libsnum + '</td></tr>';
 }
 libshow.html(phtml);
 }
 })
 }

 function init() {
 _query();
 _showlibs();
 }

 return {
 init: init
 }

 })();

 checklib.init();

})

2.后端路由

var express = require('express');
var mongoose = require('mongoose');
var request = require('request');
var cheerio =require('cheerio');
var router = express.router();
var jslib = require('../model/jslib')

/* 显示主页 */
router.get('/', function(req, res, next) {
 res.render('index');
});

// 显示库
router.get('/getlibs',function(req,res,next){
 jslib.find({})
 .sort({'libsnum': -1})
 .exec(function(err,data){
 res.json(data);
 })
})

// 库的查询
router.post('/querylib',function(req,res,next){
 var libname = req.body.libname;

 jslib.find({
 name: libname
 }).exec(function(err,data){
 if (err) console.log('查询出现错误' + err);
 res.json(data);
 })
})

router.post('/query',function(req,res,next) {
 var rank = req.body.rank;
 var len = math.round(rank/20);
 
 for (var i = 1; i < len+1; i++) {
 (function(i){
 var options = {
 url: 'http://www.alexa.cn/siterank/' + i,
 headers: {
 'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/59.0.3071.115 safari/537.36'
 }
 };
 request(options, function (err, response, body) {
 analydata(body,rank);
 })
 })(i)
 }
 res.json('保存成功')
})
 
var sites = [];
var flag = 0;
function analydata(data,rank) {
 if(data.indexof('html') == -1) return false;
 var $ = cheerio.load(data);// 传递 html
 var sitesarr = $('.info-wrap .domain-link a').toarray();//将所有a链接存为数组

 console.log('网站爬取中``')
 for (var i = 0; i < 10; i++) { // ***这里后面要改，默认爬取前10名
 var url = sitesarr[i].attribs.href;
 sites.push(url);//保存网址，添加wwww前缀
 }
 console.log(sites);
 console.log('一共爬取' + sites.length +'个网站');
 console.log('存储数据中...')

 getscript(sites);
}


// 获取js库文件地址
function getscript(urls) {
 var scriptarr = [];
 var src = [];
 var jssrc = [];
 for (var j = 0; j < urls.length; j++) {
 (function(i,callback){
 var options = {
 url: urls[i],
 headers: {
 'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/59.0.3071.115 safari/537.36'
 }
 }

 request(options, function (err, res, body) {
 if(err) console.log('出现错误: '+err);
 var $ = cheerio.load(body);
 var scriptfile = $('script').toarray();
 callback(scriptfile,options.url);
 })
 })(j,storelib)
 };

 function storelib(scriptfile,url){
 flag++;// 是否存储数据的标志
 scriptfile.foreach(function(item,index){
 if (item.attribs.src != null) {
 obtainlibname(item.attribs.src,index);
 }
 })
 
 
 function obtainlibname(jslink,i){
 var reg = /[^\/\\]+$/g;
 var libname = jslink.match(reg).join('');
 var libfilter = libname.slice(0,libname.indexof('.'));

 src.push(libfilter);
 }

 // console.log(src.length);
 // console.log(calcnum(src).length)
 (function(len,urllength,src){
 // console.log('length is '+ len)
 if (len == 10 ) {// len长度为url的长度才向src和数据库里存储数据，防止重复储存
 // calcnum(src);//存储数据到数据库 // ***这里后面要改，默认爬取前10名
 var libsrc = calcnum(src);
 store2db(libsrc);
 }
 })(flag,urls.length,src)
 } 
}// getscript end

// 将缓存数据存储到数据库
function store2db(libobj){
 console.log(libobj);
 for (var i = 0; i < libobj.length; i++) {
 (function(i){
 var jslib = new jslib({
 name: libobj[i].lib,
 libsnum: libobj[i].num
 });
 
 jslib.findone({'name': libobj[i].lib},function(err,libdoc){
 if(err) console.log(err);
 // console.log(libdoc)
 if (!libdoc){
 jslib.save(function(err,result){
 if(err) console.log('保存数据出错' + err);
 });
 }

 })
 })(i)
 }
 console.log('一共存储' + libobj.length + '条数据到数据库');
}
// js库排序算法
function calcnum(arr){
 var libobj = {};
 var result = [];
 for (var i = 0, len = arr.length; i < len; i++) {
 
 if (libobj[arr[i]]) {
 libobj[arr[i]] ++;
 } else {
 libobj[arr[i]] = 1;
 }
 }
 
 for(var o in libobj){
 result.push({
 lib: o,
 num: libobj[o]
 })
 }

 result.sort(function(a,b){
 return b.num - a.num;
 });

 return result;
}


module.exports = router;

源码下载

github下载地址（）

后记

通过这个小爬虫，学习到很多知识，例如爬虫的反爬虫有哪些策越，意识到node.js的异步执行特性，前后端是怎么进行交互的。同时，也意识到有一些方面的不足，后面还需要继续改进，欢迎大家的相互交流。

好了，以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

多线程爬取狗妈表情包

通过多线程爬取狗妈表情包import requestsimport jsonfrom jsonpath impo... [阅读全文]
Python：数据导出到Excel（使用xlwt）

写在前面：前端ajax调用导出方法，ajax无法导出问题原因：ajax是无法直接导出excel的，因为ajax的... [阅读全文]
selenium + ajax抓取英雄联盟全部英雄的详细信息及多线程保存全部皮肤图片到本地

爬虫代码如下：运行需要本地开启mongo服务器端，安装有谷歌浏览器及selenium对应版本的驱动文件#codi... [阅读全文]
MongoDB基础操作

一、概述在MongoDB数据库里是存在有数据库的概念，但是没有模式（所有的信息都是按照文档保存的），保存数据的结... [阅读全文]
nodejs中mysql的用法

1、建立数据库连接：createConnection(Object)方法该方法接受一个对象作为参数，该对象有四个... [阅读全文]
Node.js 连接 MySQL

导言在我们学习后端（node）的过程中，要时常和数据库打交道，所以说我们打通node、MySQLJavaScri... [阅读全文]
Mysql trace命令介绍

trace作用：对SQL的跟踪，可以知道SQL是如何执行的，比EXPLAIN还要强大。注意点：开启trace工具... [阅读全文]
详解JavaScript作用域闭包

javascript闭包，是js开发工程师必须深入了解的知识。3月份自己曾撰写博客《javascript闭包》，博客中只是简单阐述了闭包的工作过程和列举了几个示... [阅读全文]
深入了解JavaScript词法作用域

javascript并不是传统的块级作用域，而是函数作用域！一、作用域 javascript引擎在代码执行前会对其进行编译，在这个过程中，像var a = 2... [阅读全文]
详解JavaScript自定义函数

一、定义方法：在javascript中必须用function关键字function funcname(arg1,arg2...){statements;retu... [阅读全文]

网友评论


验证码：

利用node.js爬取指定排名网站的JS引用库详解

2017年12月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论