当前位置：移动技术网 > IT编程>开发语言>Java > springboot+webmagic实现java爬虫jdbc及mysql的方法

springboot+webmagic实现java爬虫jdbc及mysql的方法

2019年07月19日 | 移动技术网IT编程 | 我要评论

下载windows7,罪仙,hold my hand

前段时间需要爬取网页上的信息，自己对于爬虫没有任何了解，就了解了一下webmagic，写了个简单的爬虫。

一、首先介绍一下webmagic：

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义ua/cookie等功能。

实现理念：

maven依赖：

<dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-core</artifactid>
   <version>0.7.3</version>
  </dependency>
  <dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-extension</artifactid>
   <version>0.7.3</version>
  </dependency>

  <dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-extension</artifactid>
   <version>0.7.3</version>
   <exclusions>
    <exclusion>
     <groupid>org.slf4j</groupid>
     <artifactid>slf4j-log4j12</artifactid>
    </exclusion>
   </exclusions>
  </dependency>

jdbc模式：

ublic class csdnblogdao {
  private connection conn = null;
  private statement stmt = null;

  public csdnblogdao() {
    try {
      class.forname("com.mysql.jdbc.driver");
      string url = "jdbc:mysql://localhost:3306/test?"
          + "user=***&password=***3&useunicode=true&characterencoding=utf8";
      conn = drivermanager.getconnection(url);
      stmt = conn.createstatement();
    } catch (classnotfoundexception e) {
      e.printstacktrace();
    } catch (sqlexception e) {
      e.printstacktrace();
    }

  }

  public int add(csdnblog csdnblog) {
    try {
      string sql = "insert into `test`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `comments`, `copyright`) values (?, ?, ?, ?, ?, ?, ?, ?,?);";
      preparedstatement ps = conn.preparestatement(sql);
      ps.setint(1, csdnblog.getkey());
      ps.setstring(2, csdnblog.gettitle());
      ps.setstring(3,csdnblog.getcontent());
      ps.setstring(4, csdnblog.getdates());
      ps.setstring(5, csdnblog.gettags());
      ps.setstring(6, csdnblog.getcategory());
      ps.setint(7, csdnblog.getview());
      ps.setint(8, csdnblog.getcomments());
      ps.setint(9, csdnblog.getcopyright());
      return ps.executeupdate();
    } catch (sqlexception e) {
      e.printstacktrace();
    }
    return -1;
  }
}

实体类：

public class csdnblog {
  private int key;// 编号

  private string title;// 标题

  private string dates;// 日期

  private string tags;// 标签

  private string category;// 分类

  private int view;// 阅读人数

  private int comments;// 评论人数

  private int copyright;// 是否原创

  private string content; //文字内容

  public string getcontent() {
    return content;
  }

  public void setcontent(string content) {
    this.content = content;
  }

  public int getkey() {
    return key;
  }

  public void setkey(int key) {
    this.key = key;
  }

  public string gettitle() {
    return title;
  }

  public void settitle(string title) {
    this.title = title;
  }

  public string getdates() {
    return dates;
  }

  public void setdates(string dates) {
    this.dates = dates;
  }

  public string gettags() {
    return tags;
  }

  public void settags(string tags) {
    this.tags = tags;
  }

  public string getcategory() {
    return category;
  }

  public void setcategory(string category) {
    this.category = category;
  }

  public int getview() {
    return view;
  }

  public void setview(int view) {
    this.view = view;
  }

  public int getcomments() {
    return comments;
  }

  public void setcomments(int comments) {
    this.comments = comments;
  }

  public int getcopyright() {
    return copyright;
  }

  public void setcopyright(int copyright) {
    this.copyright = copyright;
  }

  @override
  public string tostring() {
    return "csdnblog [key=" + key + ", title=" + title + ", content=" + content + ",dates=" + dates + ", tags=" + tags + ", category="
        + category + ", view=" + view + ", comments=" + comments + ", copyright=" + copyright + "]";
  }
}

启动类：

public class csdnblogpageprocessor implements pageprocessor {


  private static string username="chenyufeng1991"; // 设置csdn用户名

  private static int size = 0;// 共抓取到的文章数量

  // 抓取网站的相关配置，包括：编码、抓取间隔、重试次数等
  private site site = site.me().setretrytimes(3).setsleeptime(1000);

  public site getsite() {
    return site;
  }


  // process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑
  public void process(page page) {
    // 列表页
    if (!page.geturl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()) {
      // 添加所有文章页
      page.addtargetrequests(page.gethtml().xpath("//div[@id='article_list']").links()// 限定文章列表获取区域
          .regex("/" + username + "/article/details/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url
          .all());
      // 添加其他列表页
      page.addtargetrequests(page.gethtml().xpath("//div[@id='papelist']").links()// 限定其他列表页获取区域
          .regex("/" + username + "/article/list/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url
          .all());
      // 文章页
    } else {
      size++;// 文章数量加1
      // 用csdnblog类来存抓取到的数据，方便存入数据库
      csdnblog csdnblog = new csdnblog();
      // 设置编号
      csdnblog.setkey(integer.parseint(
          page.geturl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/(\\d+)").get()));
      // 设置标题
      csdnblog.settitle(
          page.gethtml().xpath("//div[@class='article_title']//span[@class='link_title']/a/text()").get());

      //设置内容
      csdnblog.setcontent(
          page.gethtml().xpath("//div[@class='article_content']/alltext()").get());

      // 设置日期
      csdnblog.setdates(
          page.gethtml().xpath("//div[@class='article_r']/span[@class='link_postdate']/text()").get());
      // 设置标签（可以有多个，用,来分割）
      csdnblog.settags(listtostring(page.gethtml().xpath("//div[@class='article_l']/span[@class='link_categories']/a/alltext()").all()));
      // 设置类别（可以有多个，用,来分割）
      csdnblog.setcategory(listtostring(page.gethtml().xpath("//div[@class='category_r']/label/span/text()").all()));
      // 设置阅读人数
      csdnblog.setview(integer.parseint(page.gethtml().xpath("//div[@class='article_r']/span[@class='link_view']")
          .regex("(\\d+)人阅读").get()));
      // 设置评论人数
      csdnblog.setcomments(integer.parseint(page.gethtml()
          .xpath("//div[@class='article_r']/span[@class='link_comments']").regex("\\((\\d+)\\)").get()));
      // 设置是否原创
      csdnblog.setcopyright(page.gethtml().regex("bog_copyright").match() ? 1 : 0);
      // 把对象存入数据库
      new csdnblogdao().add(csdnblog);
      // 把对象输出控制台
      system.out.println(csdnblog);
    }
  }

  // 把list转换为string，用,分割
  public static string listtostring(list<string> stringlist) {
    if (stringlist == null) {
      return null;
    }
    stringbuilder result = new stringbuilder();
    boolean flag = false;
    for (string string : stringlist) {
      if (flag) {
        result.append(",");
      } else {
        flag = true;
      }
      result.append(string);
    }
    return result.tostring();
  }

  public static void main(string[] args) {
    long starttime, endtime;
    system.out.println("【爬虫开始】...");
    starttime = system.currenttimemillis();
    // 从用户博客首页开始抓，开启5个线程，启动爬虫
    spider.create(new csdnblogpageprocessor()).addurl("http://blog.csdn.net/" + username).thread(5).run();
    endtime = system.currenttimemillis();
    system.out.println("【爬虫结束】共抓取" + size + "篇文章，耗时约" + ((endtime - starttime) / 1000) + "秒，已保存到数据库，请查收！");
  }
}

使用mysql类型：

public class gamepageprocessor implements pageprocessor {

  private static final logger logger = loggerfactory.getlogger(gamepageprocessor.class);
  private static dianjingservice d;
  private static bannerservice bs;
  private static sportservice ss;
  private static yulenewsservice ys;

  private static updateservice ud ;
  // 抓取网站的相关配置，包括：编码、抓取间隔、重试次数等
  private site site = site.me().setretrytimes(3).setsleeptime(1000);

  public site getsite() {
    return site;
  }
  // process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑
  public static void main(string[] args) {
    configurableapplicationcontext context= springapplication.run(gamepageprocessor.class, args);
     d = context.getbean(dianjingservice.class);
    //spider.create(new gamepageprocessor()).addurl("网址").thread(5).run();
  }

  public void process(page page) {
    selectable url = page.geturl();
    if (url.tostring().equals("网址")) {
      dianjingvideo dv = new dianjingvideo();
      list<string> ls = page.gethtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-title']/a/text()").all();
      //hrefs
      list<string> ls1 = page.gethtml().xpath("//div[@class='v']/div[@class='v-link']/a/@href").all();//获取a标签的href

      list<string> ls2 = page.gethtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-entry']/div[@class='v-meta-data']/span[@class='r']/text()").all();
      //photo
      list<string> ls3 = page.gethtml().xpath("//div[@class='v']/div[@class='v-thumb']/img/@src").all();

      for (int i = 0; i < 5; i++) {
        dv.settitles(ls.get(i));
        dv.setcategory("");
        dv.setdates(ls2.get(i));
        dv.sethrefs(ls1.get(i));
        dv.setphoto(ls3.get(i));
        dv.setsources("");

        d.addvideo(dv);

      }
    }
}

controller：

@controller
@requestmapping(value = "/dianjing")
public class dianjingcontroller {
  @autowired
  private dianjingservice s;




    /*
    手游
     */
  @requestmapping("/dianjing")
  @responsebody
  public object dianjing(){
    list<dianjing> list = s.find2();
    jsonobject jo = new jsonobject();
    if(list!=null){

      jo.put("code",0);
      jo.put("success",true);
      jo.put("count",list.size());
      jo.put("list",list);
    }
    return jo;
  }
}

实体类就不展示了

dao层

@insert("insert into dianjing (titles,dates,category,hrefs,photo,sources) values(#{titles},#{dates},#{category},#{hrefs},#{photo},#{sources})")
int adddj(dianjing dj);

以上这篇springboot+webmagic实现java爬虫jdbc及mysql的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]

网友评论


验证码：

springboot+webmagic实现java爬虫jdbc及mysql的方法

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论