当前位置：移动技术网 > IT编程>软件设计>架构 > webmagic 基本的方法

webmagic 基本的方法

2018年03月25日 | 移动技术网IT编程 | 我要评论

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能

PageProcessor 需要自己写

Scheduler 除非项目有一些特殊的分布式需求，否则无需自己定制

Pipeline 要保存到数据库需要自己定制

Selectable

方法	说明	示例
xpath(String xpath)	使用XPath选择	html.xpath("//div[@class='title']")
$(String selector)	使用Css选择器选择	html.$("div.title")
$(String selector,String attr)	使用Css选择器选择	html.$("div.title","text")
css(String selector)	功能同$()，使用Css选择器选择	html.css("div.title")
links()	选择所有链接	html.links()
regex(String regex)	使用正则表达式抽取	html.regex("\<div\>(.\*?)\")
regex(String regex,int group)	使用正则表达式抽取，并指定捕获组	html.regex("\<div\>(.\*?)\",1)
replace(String regex, String replacement)	替换内容	html.replace("\","")

返回结果

方法	说明	示例
get()	返回一条String类型的结果	String link= html.links().get()
toString()	功能同get()，返回一条String类型的结果	String link= html.links().toString()
all()	返回所有抽取结果	List links= html.links().all()
match()	是否有匹配结果	if (html.links().match()){ xxx; }

Spider

方法	说明	示例
create(PageProcessor)	创建Spider	Spider.create(new GithubRepoProcessor())
addUrl(String…)	添加初始的URL	spider .addUrl("")
addRequest(Request...)	添加初始的Request	spider .addRequest("")
thread(n)	开启n个线程	spider.thread(5)
run()	启动，会阻塞当前线程执行	spider.run()
start()/runAsync()	异步启动，当前线程继续执行	spider.start()
stop()	停止爬虫	spider.stop()
test(String)	抓取一个页面进行测试	spider .test("")
addPipeline(Pipeline)	添加一个Pipeline，一个Spider可以有多个Pipeline	spider .addPipeline(new ConsolePipeline())
setScheduler(Scheduler)	设置Scheduler，一个Spider只能有个一个Scheduler	spider.setScheduler(new RedisScheduler())
setDownloader(Downloader)	设置Downloader，一个Spider只能有个一个Downloader	spider .setDownloader(new SeleniumDownloader())
get(String)	同步调用，并直接取得结果	ResultItems result = spider .get("")
getAll(String…)	同步调用，并直接取得一堆结果	List<ResultItems> results = spider .getAll("", "")

Site

方法	说明	示例
setCharset(String)	设置编码	site.setCharset("utf-8")
setUserAgent(String)	设置UserAgent	site.setUserAgent("Spider")
setTimeOut(int)	设置超时时间，单位是毫秒	site.setTimeOut(3000)
setRetryTimes(int)	设置重试次数	site.setRetryTimes(3)
setCycleRetryTimes(int)	设置循环重试次数	site.setCycleRetryTimes(3)
addCookie(String,String)	添加一条cookie	site.addCookie("dotcomt_user","code4craft")
setDomain(String)	设置域名，需设置域名后，addCookie才可生效	site.setDomain("github.com")
addHeader(String,String)	添加一条addHeader	site.addHeader("Referer","https://github.com")
setHttpProxy(HttpHost)	设置Http代理	site.setHttpProxy(new HttpHost("127.0.0.1",8080))

Xsoup

Name	Expression	Support
nodename	nodename	yes
immediate parent	/	yes
parent	//	yes
attribute	[@key=value]	yes
nth child	tag[n]	yes
attribute	/@key	yes
wildcard in tagname	/*	yes
wildcard in attribute	/[@*]	yes
function	function()	part
or	a \| b	yes since 0.2.0
parent in path	. or ..	no
predicates	price>35	no
predicates logic	@class=a or @class=b	yes since 0.2.0

另外作者自己定义了几个对于爬虫来说，很方便的XPath函数。但是请注意，这些函数式标准XPath没有的。

Expression	Description	XPath1.0
text(n)	第n个直接文本子节点，为0表示所有	text() only
allText()	所有的直接和间接文本子节点	not support
tidyText()	所有的直接和间接文本子节点，并将一些标签替换为换行，使纯文本显示更整洁	not support
html()	内部html，不包括标签的html本身	not support
outerHtml()	内部html，包括标签的html本身	not support
regex(@attr,expr,group)	这里@attr和group均可选，默认是group0	not support

代理

API	说明
HttpClientDownloader.setProxyProvider(ProxyProvider proxyProvider)	设置代理

1.设置单一的普通HTTP代理为101.101.101.101的8888端口，并设置密码为"username","password"

HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
    httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(new Proxy("101.101.101.101",8888,"username","password")));
    spider.setDownloader(httpClientDownloader);

2.设置代理池，其中包括101.101.101.101和102.102.102.102两个IP，没有密码

 HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
    httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(
    new Proxy("101.101.101.101",8888)
    ,new Proxy("102.102.102.102",8888)));

HttpRequestBody

API	说明
HttpRequestBody.form(Map\<string,object> params, String encoding)	使用表单提交的方式
HttpRequestBody.json(String json, String encoding)	使用JSON的方式，json是序列化后的结果
HttpRequestBody.xml(String xml, String encoding)	设置xml的方式，xml是序列化后的结果
HttpRequestBody.custom(byte[] body, String contentType, String encoding)	设置自定义的requestBody

组件的使用

方法	说明	示例
setScheduler()	设置Scheduler	spipder.setScheduler(new FileCacheQueueScheduler("D:\data\webmagic"))
setDownloader()	设置Downloader	spipder.setDownloader(new SeleniumDownloader()))
addPipeline()	设置Pipeline，一个Spider可以有多个Pipeline	spipder.addPipeline(new FilePipeline())

结果输出方式

类	说明	备注
ConsolePipeline	输出结果到控制台	抽取结果需要实现toString方法
FilePipeline	保存结果到文件	抽取结果需要实现toString方法
JsonFilePipeline	JSON格式保存结果到文件
ConsolePageModelPipeline	(注解模式)输出结果到控制台
FilePageModelPipeline	(注解模式)保存结果到文件
JsonFilePageModelPipeline	(注解模式)JSON格式保存结果到文件	想要持久化的字段需要有getter方法

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

14、Ribbon整合断路器监控Hystrix Dashboard

上一篇只是大概介绍了一下断路器Hystrix Dashboard监控，如何使用Hystrix Dashboard监控微服务的状态呢？这篇看看Ribbon... [阅读全文]
十分钟脑图加说明，搞定系统分析师的绝对核心-需求工程

十分钟脑图加说明，搞定系统分析师的绝对核心需求工程前言分析师系列，我已经很久没有写了。因为系统分析师的考试内容与系统架构设计师的考试内容有许多重... [阅读全文]
Spring 学习一（了解Spring）

1.Spring 框架的概念？ Spring框架是一个开放源代码的J2EE应用程序框架，由Rod Johnson发起，是针对bean的生命周期... [阅读全文]
系统模块划分设计的思考

系统模块划分设计的思考前言首先明确一下，这里所说的系统模块划分，是针对client，service，common这样的技术划分，而不是针对具体业务的... [阅读全文]
细谈八种架构涉及模式及其优缺点概述

一、什么是架构我想这个问题，十个人回答得有十一个答案，因为另外的那一个是大家妥协的结果，哈哈，我理解，架构就是骨架，如下图所示：人类的身体的支撑是主... [阅读全文]
消息队列全面了解

消息队列都应用到了哪些实际的应用场景中？一、再谈消息队列的应用场景 1、异步处理：例如短信通知、终端状态推送、App推送、用户注册等 2、数据同部：业... [阅读全文]
搞懂 XML 解析，徒手造 WEB 框架

恕我斗胆直言，对开源的 WEB 框架了解多少，有没有尝试写过框架呢？XML 的解析方式有哪些？能答出来吗？！心中没有答案也没关系，因为通过今天的分享，... [阅读全文]
从储值卡充值业务看分布式事务的设计

公司有一项储值卡充值业务：客户在微信公众号开通储值卡服务，通过微信支付往卡里面充值，充值成功后客户可收到消息通知，并进行消费。看起来是一项很简单的业务... [阅读全文]
消息队列全面了解

关于消息队列，我们来思考这么几个问题： 1、MQ为什么再系统中使用？一定要在分布式系统中使用吗？ 2、MQ有哪些中间件？他们有哪些特点？ 3、MQ给系统... [阅读全文]
臭名昭著的手机验证码功能是如何实现的

前言现在基本上各种手机注册都会用到手机验证码，包括一些端网站也会使用手机号作为唯一标识验证！恰巧，小明的老板，让其开发一个用户注册的功能，并且强... [阅读全文]