当前位置：移动技术网 > IT编程>开发语言>Java > java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

2019年04月22日 | 移动技术网IT编程 | 我要评论

降龙大师,国外成人聊天室,岛方淳子

1. 目标

使用webmagic爬取动作电影列表信息
爬取电影《海王》详细信息【电影名称、电影迅雷下载地址列表】

2. 爬取最新动作片列表

获取电影列表页面数据来源地址

访问http://m.ady01.com/rs/film/list/1/1，f12开发者模式中找到页面数据来源地址
在这里插入图片描述

地址是：http://m.ady01.com/rs/film/listjson/1/1

访问：http://m.ady01.com/rs/film/listjson/1/1

在这里插入图片描述

抓取列表信息

使用git拉取代码：https://gitee.com/likun_557/java-pachong 这个代码是在第一讲中创建的，需要了解的朋友可以查看第一讲的内容"《java爬虫系列第一讲-爬虫入门》"
将代码导入idea中
新建包com.ady01.demo2.filmlist，本次示例代码全部放在该包中
列表页面数据来源http://m.ady01.com/rs/film/listjson/1/1，是一个json数据
根据http://m.ady01.com/rs/film/listjson/1/1中的数据格式，我们先分析一下
- 最外层是一个分页的类
- datalist是一个集合，内部每项是一个电影资源的信息

创建com.ady01.demo2.filmlist.pagemodel类，用于保存分页电影信息

package com.ady01.demo2.filmlist;

import lombok.*;

import java.io.serializable;
import java.util.list;

/**
 * <b>description</b>：分页对象 <br>
 * <b>time</b>：2019-04-21 13:46 <br>
 * <b>author</b>： 微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！
 */
@getter
@setter
@noargsconstructor
@tostring
public class pagemodel implements serializable {
    private static final long serialversionuid = 1l;
    /**
     * 每页显示数量
     */
    private long pagesize;
    /**
     * 当前页行的开始行的索引，如1,2,3....
     */
    private long startindex;
    /**
     * 当前页行的结束索引
     */
    private long endindex;
    /**
     * 当前页
     */
    private long currentpage;

    /**
     * 上一页索引
     */
    private long prepage;

    /**
     * 下一页索引
     */
    private long nextpage;

    /**
     * 总记录数
     */
    private long count;

    /**
     * 是否有上一页
     */
    private boolean hasprepage;

    /**
     * 是否有下一页
     */
    private boolean hasnextpage;

    /**
     * 总页数
     */
    private long pagecount;

    /**
     * 数据集合
     */
    private list<filmmodel> datalist;
}

创建com.ady01.demo2.filmlist.filmmodel类，用于保存电影信息

package com.ady01.demo2.filmlist;

import lombok.getter;
import lombok.noargsconstructor;
import lombok.setter;
import lombok.tostring;

import java.io.serializable;
import java.util.map;

/**
 * <b>description</b>：电影信息 <br>
 * <b>time</b>：2019/4/21 12:35 <br>
 * <b>author</b>：微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！
 */
@setter
@getter
@noargsconstructor
@tostring
public class filmmodel implements serializable{
    private static final long serialversionuid = 1l;
    /**
     * 编号
     */
    private java.lang.long id;
    /**
     * 片名，完整名称，不包含无关文字
     */
    private java.lang.string name;
    /**
     * 片名全拼音(小写)，如英雄：yingxiong
     */
    private java.lang.string full_spell;
    /**
     * 片名简拼(小写)，如英雄：yx
     */
    private java.lang.string short_spell;
    /**
     * 标题，可能和片名不同，里面有可能包含推广相关文字
     */
    private java.lang.string title;
    /**
     * 关键词，多个之间用逗号隔开
     */
    private java.lang.string keywords;
    /**
     * 描述
     */
    private java.lang.string description;
    /**
     * 1：电影，2：自定义专辑系列
     */
    private java.lang.integer type;
    /**
     * 来源站点
     */
    private java.lang.long site_id;
    /**
     * 来源页面
     */
    private java.lang.string source_url;
    /**
     * 简介，关联t_content_id
     */
    private java.lang.long content_id;
    /**
     * 评分
     */
    private java.lang.string score;
    /**
     * 来源页面中资源唯一标志，用于去重使用
     */
    private java.lang.string source_uid;
    /**
     * 创建时间
     */
    private java.lang.long create_time;
    /**
     * 发布时间
     */
    private java.lang.long pub_time;
    /**
     * 最后更新时间
     */
    private java.lang.long update_time;
    /**
     * 状态信息
     */
    private java.lang.integer status;
    /**
     * 版本号
     */
    private java.lang.long version;
    /**
     * 扩展数据
     */
    private map<object, object> extdata;
}

创建列表数据采集器com.ady01.demo2.filmlist.filmlistpageprocessor

package com.ady01.demo2.filmlist;

import com.ady01.demo2.filmdetail.filmdetailmodel;
import com.ady01.demo2.filmdetail.filmdetailpageprocessor;
import com.alibaba.fastjson.json;
import lombok.extern.slf4j.slf4j;
import us.codecraft.webmagic.page;
import us.codecraft.webmagic.request;
import us.codecraft.webmagic.site;
import us.codecraft.webmagic.spider;
import us.codecraft.webmagic.processor.pageprocessor;

/**
 * <b>description</b>：电影列表页面数据采集器 <br>
 * <b>time</b>：2019/4/21 12:40 <br>
 * <b>author</b>：微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！
 */
@slf4j
public class filmlistpageprocessor implements pageprocessor {

    public static pagemodel collector(string url) {
        return new filmlistpageprocessor(url).collect().getpagemodel();
    }

    private site site = site.me().setretrytimes(3).setsleeptime(100).settimeout(10000);
    //需要采集的页面
    private string url;

    //采集的数据
    private pagemodel pagemodel;

    public filmlistpageprocessor(string url) {
        this.url = url;
    }

    public filmlistpageprocessor collect() {
        request request = new request(url);
        spider.create(this).thread(1).addrequest(request).run();
        return this;
    }

    @override
    public void process(page page) {
        string text = page.getrawtext();
        log.info("列表页面数据：{}", text);
        this.pagemodel = json.parseobject(text, pagemodel.class);
    }

    @override
    public site getsite() {
        return this.site;
    }

    public pagemodel getpagemodel() {
        return pagemodel;
    }

    public void setpagemodel(pagemodel pagemodel) {
        this.pagemodel = pagemodel;
    }
}

测试用例com.ady01.demo2.filmlist.filmlistpageprocessortest

package com.ady01.demo2.filmlist;

import lombok.extern.slf4j.slf4j;
import org.junit.test;

/**
 * <b>description</b>： <br>
 * <b>time</b>：2019/4/21 13:59 <br>
 * <b>author</b>：微信微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据）
 */
@slf4j
public class filmlistpageprocessortest {

    @test
    public void collect() {
        string url = "http://m.ady01.com/rs/film/listjson/1/1";
        pagemodel collector = filmlistpageprocessor.collector(url);
        log.info("\n\n\n列表页面数:{}", collector);
    }
}

运行 com.ady01.demo2.filmlist.filmlistpageprocessortest#collect() 方法，结果如下：

3. 爬取电影《海王》迅雷地址

我们以《海王》页面(http://m.ady01.com/rs/film/detail/46612)为例，来采集详情页的信息

需要采集的信息有：电影名称、描述信息、电影下载地址列表

在这里插入图片描述

创建com.ady01.demo2.filmdetail.filmdetailmodel类，用于封装电影详细信息

package com.ady01.demo2.filmdetail;

import lombok.getter;
import lombok.setter;
import lombok.tostring;

import java.io.serializable;
import java.util.list;

/**
 * <b>description</b>：电影详细信息 <br>
 * <b>time</b>：2019/4/21 13:18 <br>
 * <b>author</b>：微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！
 */
@setter
@getter
@tostring
public class filmdetailmodel implements serializable {
    private static final long serialversionuid = 1l;
    /**
     * 编号
     */
    private java.lang.long id;
    /**
     * 片名，完整名称，不包含无关文字
     */
    private java.lang.string title;

    /**
     * 下载地址列表
     */
    private list<string> downlist;
}

创建详情页采集器com.ady01.demo2.filmdetail.filmdetailpageprocessor

package com.ady01.demo2.filmdetail;

import lombok.extern.slf4j.slf4j;
import us.codecraft.webmagic.page;
import us.codecraft.webmagic.request;
import us.codecraft.webmagic.site;
import us.codecraft.webmagic.spider;
import us.codecraft.webmagic.processor.pageprocessor;
import us.codecraft.webmagic.selector.selectable;

import java.util.list;
import java.util.objects;
import java.util.stream.collectors;

/**
 * <b>description</b>：电影详情页采集器，采集电影详细信息 <br>
 * <b>time</b>：2019/4/21 12:40 <br>
 * <b>author</b>：微信公众号：路人甲java，专注于java技术分享（爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！
 */
@slf4j
public class filmdetailpageprocessor implements pageprocessor {
    public static filmdetailmodel collector(long film_id) {
        return new filmdetailpageprocessor(film_id).collect().getfilmdetailmodel();
    }

    private site site = site.me().setretrytimes(3).setsleeptime(100).settimeout(10000);
    //电影资源id
    private long film_id;

    //采集的数据
    private filmdetailmodel filmdetailmodel;

    public filmdetailpageprocessor(long film_id) {
        this.film_id = film_id;
    }

    public filmdetailpageprocessor collect() {
        request request = new request(string.format("http://m.ady01.com/rs/film/detail/%s", this.film_id));
        spider.create(this).thread(1).addrequest(request).run();
        return this;
    }

    @override
    public void process(page page) {
        string text = page.getrawtext();
        log.info("列表页面数据：{}", text);
        this.filmdetailmodel = new filmdetailmodel();
        //电影标题
        string title = page.gethtml().$("span[class='film_title']","text").get();
        this.filmdetailmodel.setid(this.film_id);
        this.filmdetailmodel.settitle(title);
        //电影下载地址downlist
        list<selectable> downnodes = page.gethtml().$("div.film_downurl_txt").nodes();
        if (objects.nonnull(downnodes)) {
            list<string> downlist = downnodes.stream().map(item -> item.$("div", "text").get()).collect(collectors.tolist());
            this.filmdetailmodel.setdownlist(downlist);
        }
    }

    @override
    public site getsite() {
        return this.site;
    }

    public filmdetailmodel getfilmdetailmodel() {
        return filmdetailmodel;
    }

    public void setfilmdetailmodel(filmdetailmodel filmdetailmodel) {
        this.filmdetailmodel = filmdetailmodel;
    }
}

创建测试用例com.ady01.demo2.filmdetail.filmdetailpageprocessortest

package com.ady01.demo2.filmdetail;


import com.ady01.demo2.filmlist.filmlistpageprocessor;
import com.ady01.demo2.filmlist.pagemodel;
import com.ady01.util.frameutil;
import lombok.extern.slf4j.slf4j;
import org.junit.test;

@slf4j
public class filmdetailpageprocessortest {
    @test
    public void collect() {
        long film_id = 46612l;
        filmdetailmodel filmdetailmodel = filmdetailpageprocessor.collector(46612l);
        log.info("\n\n\n电影《海王》详情:{}", frameutil.json(filmdetailmodel, true));
    }

}

运行测试用例com.ady01.demo2.filmdetail.filmdetailpageprocessortest#collect()

4. 总结

webmagic中支持xpath、$选择器的方式获取页面中的元素信息，使用非常方便，如果你们对jquery比较熟悉，可以直接使用类似于jquery选择器的语法来解析整个页面的内容；还有xpath的语法，后期会有专门讲解xpath的语法，敬请关注。
有问题的可以留言。
下期咱们一起来抓取极客时间上面的课程信息
爱电影这个网站就是用webmagic做的，内部包含自动采集功能，每天自动采集大量大于资源，爬虫系列完结之后，将把整个网站的源码风险给大家，资源会在公众号中发布，可以提前关注一下公众号【路人甲java】

在这里插入图片描述

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

JAVA中4种解析XML文件的方法

xml是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。xml在不同的语言环境中解析方式都是一样的,只不过实现... [阅读全文]
快速了解JAVA中的Random()函数

java中存在着两种random函数：一、java.lang.math.random;　　调用这个math.random()函数能够返回带正号的double值，... [阅读全文]
JAVA.io读写文件方式汇总

一、java把这些不同来源和目标的数据都统一抽象为数据流。　　java语言的输入输出功能是十分强大而灵活的。　　在java类库中，io部分的内容是很庞大的，因为... [阅读全文]
SpringBoot加载应用事件监听器代码实例

利用 spring 工厂加载机制，实例化 applicationlistener 实现类，并排序对象集合创建应用事件监听器创建类实现接口applicationl... [阅读全文]
详解JAVA中接口的定义和接口的实现

1.接口的定义使用interface来定义一个接口。接口定义同类的定义类似，也是分为接口的声明和接口体，其中接口体由常量定义和方法定义两部分组成。定义接口的基本... [阅读全文]
SpringBoot上下文初始器加载过程详解

利用 spring 工厂加载机制，实例化 applicationcontextinitializer 实现类，并排序对象集合。关键方法private <t... [阅读全文]
深入了解JAVA Jersey框架

java jersey的详情概述jersey是一个restful请求服务java框架，与常规的java编程使用的struts框架类似，它主要用于处理业务逻辑层。... [阅读全文]
apollo与springboot集成实现动态刷新配置的教程详解

分布式apollo简介apollo（阿波罗）是携程框架部门研发的开源配置管理中心，能够集中化管理应用不同环境、不同集群的配置，配置修改后能够实时推送到应用端，并... [阅读全文]
SpringBoot基于Shiro处理ajax请求代码实例

写一个shiro的过滤器import cn.erika.demo.common.model.vo.message;import com.alibaba.fast... [阅读全文]
如何在JAVA中使用Synchronized

《编程思想之多线程与多进程(1)——以操作系统的角度述说线程与进程》一文详细讲述了线程、进程的关系及在操作系统中的表现，这是多线程学习必须了解的基础。本文将接着... [阅读全文]

网友评论


验证码：

java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

2019年04月22日 | 移动技术网IT编程 | 我要评论

1. 目标

2. 爬取最新动作片列表

获取电影列表页面数据来源地址

抓取列表信息

3. 爬取电影《海王》迅雷地址

4. 总结

您可能感兴趣的文章:

相关文章:

网友评论