当前位置：移动技术网 > IT编程>开发语言>Java > java爬虫Gecco工具抓取新闻实例

java爬虫Gecco工具抓取新闻实例

2019年07月22日 | 移动技术网IT编程 | 我要评论

最近看到gecoo爬虫工具，感觉比较简单好用，所有写个demo测试一下，抓取网站
，主要抓取新闻的标题和发布时间做为抓取测试对象。抓取html节点通过像jquery选择器一样选择节点，非常方便，gecco代码主要利用注解实现来实现url匹配，看起来比较简洁美观。

添加maven依赖

<dependency>
   <groupid>com.geccocrawler</groupid>
   <artifactid>gecco</artifactid>
   <version>1.0.8</version>
</dependency>

编写抓取列表页面

@gecco(matchurl = "http://zj.zjol.com.cn/home.html?pageindex={pageindex}&pagesize={pagesize}",pipelines = "zjnewslistpipelines")
public class zjnewsgeccolist implements htmlbean {
  @request
  private httprequest request;
  @requestparameter
  private int pageindex;
  @requestparameter
  private int pagesize;
  @htmlfield(csspath = "#content > div > div > div.con_index > div.r.main_mod > div > ul > li > dl > dt > a")
  private list<hrefbean> newlist;
}

@pipelinename("zjnewslistpipelines")
public class zjnewslistpipelines implements pipeline<zjnewsgeccolist> {
  public void process(zjnewsgeccolist zjnewsgeccolist) {
    httprequest request=zjnewsgeccolist.getrequest();
    for (hrefbean bean:zjnewsgeccolist.getnewlist()){
      //进入祥情页面抓取
    schedulercontext.into(request.subrequest("http://zj.zjol.com.cn"+bean.geturl()));
    }
    int page=zjnewsgeccolist.getpageindex()+1;
    string nexturl = "http://zj.zjol.com.cn/home.html?pageindex="+page+"&pagesize=100";
    //抓取下一页
    schedulercontext.into(request.subrequest(nexturl));
  }
}

编写抓取祥情页面

@gecco(matchurl = "http://zj.zjol.com.cn/news/[code].html" ,pipelines = "zjnewsdetailpipeline")
public class zjnewsdetail implements htmlbean {

  @text
  @htmlfield(csspath = "#headline")
  private string title ;

  @text
  @htmlfield(csspath = "#content > div > div.news_con > div.news-content > div:nth-child(1) > div > p.go-left.post-time.c-gray")
  private string createtime;
}

@pipelinename("zjnewsdetailpipeline")
public class zjnewsdetailpipeline implements pipeline<zjnewsdetail> {
  public void process(zjnewsdetail zjnewsdetail) {
    system.out.println(zjnewsdetail.gettitle()+" "+zjnewsdetail.getcreatetime());
  }
}

启动主函数

public class main {
  public static void main(string [] rags){
    geccoengine.create()
        //工程的包路径
        .classpath("com.zhaochao.gecco.zj")
        //开始抓取的页面地址
        .start("http://zj.zjol.com.cn/home.html?pageindex=1&pagesize=100")
        //开启几个爬虫线程
        .thread(10)
        //单个爬虫每次抓取完一个请求后的间隔时间
        .interval(10)
        //使用pc端useragent
        .mobile(false)
        //开始运行
        .run();
  }
}

抓取结果

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

浅谈Java分布式架构下如何实现分布式锁

01分布式锁运用场景　　互联网秒杀，抢优惠卷，接口幂等性校验。咱们以互联网秒杀为例。　@restcontroller　　@slf4j　　publicclassi... [阅读全文]
详解SpringBoot修改启动端口server.port的四种方式

方式一: 配置文件 application.propertiesserver.port=7788方式二: java启动命令# 以应用参数的方式java -jar... [阅读全文]
Spring AOP里的静态代理和动态代理用法详解

什么是代理？　　为某一个对象创建一个代理对象，程序不直接用原本的对象，而是由创建的代理对象来控制原对象，通过代理类这中间一层，能有效控制对委托类对象的直接访问，... [阅读全文]
java实现通讯录管理系统

本文实例为大家分享了java实现通讯录管理系统的具体代码，供大家参考，具体内容如下完成项目的流程：1.根据需求，确定大体方向 2.功能模块分析 3.界面实现 4... [阅读全文]
Java中数据库常用的两把锁之乐观锁和悲观锁

在写入数据库的时候需要有锁，比如同时写入数据库的时候会出现丢数据，那么就需要锁机制。　　数据锁分为乐观锁和悲观锁，那么它们使用的场景如下：　　1. 乐观锁适用于... [阅读全文]
git在idea中的冲突解决方法(非常重要)

1、git冲突的场景情景一：多个分支代码合并到一个分支时；情景二：多个分支向同一个远端分支推送代码时；实际上，push操作即是将本地代码merge到远端... [阅读全文]
Java代码生成器的制作流程详解

1. 前言前几天写了篇关于mybatis plus代码生成器的文章，不少同学私下问我这个代码生成器是如何运作的，为什么要用到一些模板引擎，所以今天来说明下代码生... [阅读全文]
Java中生产者消费者问题总结

生产者-消费者算是并发编程中常见的问题。依靠缓冲区我们可以实现生产者与消费者之间的解耦。生产者只管往缓冲区里面放东西，消费者只管往缓冲区里面拿东西。这样我们避免... [阅读全文]
Java 编程中十个处理异常的建议

一、尽量不要使用e.printstacktrace(),而是使用log打印。反例:try{ // do what you want }catch(excepti... [阅读全文]
Spring boot热部署devtools过程解析

1 pom.xml文件注：热部署功能spring-boot-1.3开始有的<dependency> <gr... [阅读全文]

网友评论


验证码：

java爬虫Gecco工具抓取新闻实例

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论