当前位置：移动技术网 > IT编程>脚本编程>NodeJs > node实现爬虫的几种简易方式

node实现爬虫的几种简易方式

2019年09月09日 | 移动技术网IT编程 | 我要评论

说到爬虫大家可能会觉得很nb的东西，可以爬小电影，羞羞图，没错就是这样的。在node爬虫方面，我也是个新人，这篇文章主要是给大家分享几种实现node

爬虫的方式。第一种方式，采用node,js中的 superagent+request + cheerio。cheerio是必须的，它相当于node版的jquery，用过jquery的同学会非常容易上手。它

主要是用来获取抓取到的页面元素和其中的数据信息。superagent是node里一个非常方便的、轻量的、渐进式的第三方客户端请求代理模块，用他来请求目标页面。

node中，http模块也可作为客户端使用（发送请求），第三方模块request对其使用方法进行了封装，操作更方便。以下是三者的引入方法：

接下来我们开始请求要爬取的目标页面。申明目标页面比如新浪网首页：

如新浪首页部分代码

通过superagent请求目标网站，获取到网站内容，通过cheerio.load方法引入要解析的html
cheerio中的有关dom操作的方式

此处采用 .each(function(index,element){...})方式遍历需要的元素

返回结果如下：

若要将文字内容存储可采用以下方式：

引入fs模块const fs= require("fs")

引入path模块 const path=require("path")

node.js 内置的fs模块就是文件系统模块，负责读写文件。和所有其他js模块不同的是，fs模块同时提供了异步和同步的方法。

在上述方法中调用存储文字内容mkdirs方法

//存放数据
mkdirs('./content2',savecontent); (注: content2是新建文件名；savecontent是回调函数)

文字内容最终将存储在content2中的content.txt文件中

若想存储图片可采用以下方式:

第二种方式：使用nightmare自动化测试工具。

这里介绍一下nightmare工具的用途：

electron可以让你使用纯javascript调用chrome丰富的原生的接口来创造桌面应用。你可以把它看作一个专注于桌面应用的node.js的变体，而不是web服务器。

其基于浏览器的应用方式可以极方便的做各种响应式的交互

nightmare是一个基于electron的框架，针对web自动化测试和爬虫，因为其具有跟plantomjs一样的自动化测试的功能可以在页面上模拟用户的行为触发一些异步数据加载，

也可以跟request库一样直接访问url来抓取数据，并且可以设置页面的延迟时间，所以无论是手动触发脚本还是行为触发脚本都是轻而易举的。

const nightmare=require("nightmare") //自动化测试包 ，处理动态页面
const nightmare=nightmare({show: true}) show:true时，运行node可以显示内置模拟浏览器

运行结束后，会在image2中存储下载的图片。

好了，文章就到这里了，有什么问题欢迎小伙伴指正。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

如何在node环境实现“get数据解析”代码实例

1、自己写const http = require('http'); http.createserver(function(req,res){ var get... [阅读全文]
Nodejs环境实现socket通信过程解析

结构：socket是应用层和传输层的桥梁。（传输层之上的协议所涉及的数据都是在本机处理的，并没进入网络中）涉及数据：socket所涉及的数据是报文，是明文。作用... [阅读全文]
koa2 数据api中间件设计模型的实现方法

假设所有的数据库读取，http api 接口请求都为一个中间件，将中间件当做插件，插入需要获取数据的位置。api.jsmodule.exports = asyn... [阅读全文]
通过实例了解Nodejs模块系统及require机制

一、简介　　nodejs 有一个简单的模块加载系统。在 nodejs 中，文件和模块是一一对应的（每个文件被视为一个独立的模块），这个文件可能是 javascr... [阅读全文]
浅谈使用nodejs搭建web服务器的过程

使用 node 创建 web 服务器什么是 web 服务器？web服务器一般指网站服务器，是指驻留于因特网上某种类型计算机的程序，web服务器的基本功能就是提供... [阅读全文]
详解node.js 事件循环

node.js 是单进程单线程应用程序，但是因为 v8 引擎提供的异步执行回调接口，通过这些接口可以处理大量的并发，所以性能非常高。node.js 几乎每一个 ... [阅读全文]
手把手带你搭建一个node cli的方法示例

前言前端日常开发中，会遇见各种各样的 cli，使用 vue 技术栈的你一定用过 @vue/cli ,同样使用 react 技术栈的人也一定知道 create-r... [阅读全文]
NodeJs-Koa的安装和路由设置

1.准备工作安装nodejs创建项目 -创建个文件夹;在创建的项目中使用命令行，使用npm 初始化项目。使用np... [阅读全文]
基于node+websocket+html实现腾讯课堂聊天室聊天功能

受疫情影响很多中小学选择线上教程，大多数学校采用腾讯课堂直播，那么今天小编给大家分享一段代码关于基于node+websocket+html实现腾讯课堂聊天室聊天... [阅读全文]
Node.js中文件系统fs模块的使用及常用接口

fs是filesystem的缩写，该模块提供本地文件的读写能力，基本上是posix文件操作命令的简单包装。但是，这个模块几乎对所有操作提供异步和同步两种操作方式... [阅读全文]

网友评论


验证码：

node实现爬虫的几种简易方式

2019年09月09日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论