当前位置：移动技术网 > IT编程>软件设计>面向对象 > web-magic + Xpath Java程序员

web-magic + Xpath Java程序员

2020年04月06日 | 移动技术网IT编程 | 我要评论

大学毕业一年收获还是满满的！手动滑稽

今天呢，来记录一个爬虫项目，用的web-magic实现，不说java和python那个更强，只看那个代价更小，与现在我而言自然是java喽！同时呢magic也是参考了scrapy框架的。

先把git地址掏出来：https://gitee.com/xxxx/magicfetch.git(留言给地址)

言归正传，先说爬虫需要什么：

　　1、明确要做的事情：爬虫，爬哪个网站。

　　2、从哪里开始：爬虫的入口（启停配）spider

　　3、接下来便是如何进行爬取和爬取结果的处理。

详细：

　　如何启动，如何配置，如何停止：　

　spider.create(new getxgluo())
        .thread(10) //线程，magic是支持多线程的
        .addurl(t)  //t:要爬取的网站url
        .addpipeline(new mypipeline())  //添加一个对爬取结果的处理操作类--输出到console
        .addpipeline(new myfilepipeline())  //再添加一个对爬取结果的处理操作类--输出到文件
        .run();  //爬虫诞生，去吧皮卡丘，把我想要的拿回来.

　　靓仔，你没猜错，create方法是静态的，所以可以用类名直接调用，run方法就是入口，该方法执行的时候爬虫就启动了。

　　这些是spider最常用的配置了，至于骚操作作者就……，大家可以问问度娘，或者直接从 https://github.com/code4craft/webmagic.git获取项目，直接分析代码（如果觉着作者陋，欢迎吐槽）。

　　启动了，基本配置有了，我们该设计自己的逻辑了，这个时候我们就要找自己想要爬取的内容在网页的什么位置。

　　找到网页查看源代码找到需要爬取的内容的标签如:

　　这里我们有id属性，那么我们知道在一个网页中的id属性是唯一的，因此我们可以借助这个属性，进行匹配

　　string xpathfb = "[@id=content_left]/div[2]/h3/text()";

　　我们利用html提供的xpath便可以根据上面提供的网页中的位置，找到h3标签中的内容。

　　现在位置找到了，要开始抓数据了，我们上面说到spider.run的时候爬虫已经放出去了，刚刚我们有指定了爬虫的目标，现在要开始采蜜了。

　　请你回头看看我，spider.create(new getxgluo())这里我们创建了一个对象作为参数，但这个类可是作者自己写的（当然你也可以），但是这个类可是需要实现pageprocess借口的，而且要重写process方法，而这个方法就是我们采蜜动作的设计。

　　在这里我们需要对爬的网址进行正则匹配，不然地址都错了，那还玩个球啊。地址正确就用到网页中的位置xpathfb了。

　　html.xpath(xpathfb).tostring();

　　通过xpath我们就能获取到了h3中的内容存到字符串中了，那岂不是可以为所欲为了。

　　哈哈，只剩一步了，对获取内容的保存或者输出。

　　这个时候拿出最后一把宝剑：pipeline 来进行后续的操作，比如用于输出到console中的consopipeline类和filepipeline类，当然我们也可以自己重写pipeline来创建自己的逻辑。

　　如果我们用了pipeline及其子类，我们还需要new吗？记住不需要，不需要，不需要，这里用的回调函数，你需要在实现pipeline的时候重写process方法，你写的逻辑就能被自动调用（真香）。

　　好了，现在我们三个步骤都完成了。愉快的试一下吧

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

浅谈POP,OOP,AOP三者区别

POP(面向过程编程Process Oriented Programming):分析出解决问题所需要的步骤，然后用函数把这些步骤一步一步实现，使用的时候... [阅读全文]
Java面向对象中：方法重载和方法重写以及区别、 this关键字和super关键字以及区别

2020-04-13 Java面向对象中：方法重载和方法重写、 this关键字和super关键字方法重载：是指同一个类中的多个方法具有相同的名字,但... [阅读全文]
北航OO（2020）第二单元博客作业

北航OO（2020）第二单元博客作业 [TOC] 设计策略分析（多线程视角）本单元的三次作业中，我采用了相似的策略：采用输入线程与电梯线程通过线程安全... [阅读全文]
（C#、JavaScript）面向对象的程序设计

面向对象（OOP）的理解喜欢程序的朋友们，大家应该都听过一句话“万物皆对象”，感觉老牛X了。面向对象的程序设计，它是围绕真实世界来设计程序的。面向... [阅读全文]
web-magic + Xpath Java程序员

大学毕业一年收获还是满满的！手动滑稽今天呢，来记录一个爬虫项目，用的web-magic实现，不说Java和Python那个更强，只看那个代价更小，与现... [阅读全文]
理解面向对象思想

面向对象程序设计的基本认识 0.前言：接触面向对象程序设计这门课程已经有四周有余了，经过四周的网课，直播课，PTA作业题等的练习，我对面向对象程序设计... [阅读全文]
OO第一作业周期（前四周）总结

前言本文章针对Java课程前三次PTA作业进行总结一.作业过程总结 1.总结三次作业之间的知识迭代关系：关于前三次作业之间的迭代关系，第一次作业主要... [阅读全文]
【开源】使用Angular9和TypeScript开发RPG游戏(补充了Buffer技能)

RPG系统构造通过对于斗罗大陆小说的游戏化过程，熟悉Angular的结构以及使用TypeScript的面向对象开发方法。 "Github项目源代码地址... [阅读全文]
北航OO（2020）第一单元博客作业

北航OO（2020）第一单元博客作业 [TOC] 基于度量的程序结构分析 Homework 1 代码度量 | Method | CONTROL | ev... [阅读全文]
项目模块--1.实现验证码功能

简介： Java web项目中，在后端随机生成一个验证码，绘制成图像，并在图像上添加两条干扰线，发送到浏览器，供用户使用。本片博文内容包括，功能实现的... [阅读全文]

网友评论


验证码：

web-magic + Xpath Java程序员

2020年04月06日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论