当前位置：移动技术网 > IT编程>开发语言>Java > 详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

2019年07月22日 | 移动技术网IT编程 | 我要评论

qy,淄博公安交警,依山傍水

利用java抓取网页上的所有图片：

用两个正则表达式：

1、匹配html中img标签的正则：<img.*src=(.*?)[^>]*?>

2、匹配img标签中得src中http路径的正则：http:\"?(.*?)(\"|>|\\s+)

实现：

package org.swinglife.main; 
 
import java.io.file; 
import java.io.fileoutputstream; 
import java.io.inputstream; 
import java.net.url; 
import java.net.urlconnection; 
import java.util.arraylist; 
import java.util.list; 
import java.util.regex.matcher; 
import java.util.regex.pattern; 
 
/*** 
 * java抓取网络图片 
 * @author swinglife 
 * 
 */ 
public class catchimage { 
 
  // 地址 
  private static final string url = "http://www.csdn.net"; 
  // 编码 
  private static final string ecoding = "utf-8"; 
  // 获取img标签正则 
  private static final string imgurl_reg = "<img.*src=(.*?)[^>]*?>"; 
  // 获取src路径的正则 
  private static final string imgsrc_reg = "http:\"?(.*?)(\"|>|\\s+)"; 
 
   
  public static void main(string[] args) throws exception { 
    catchimage cm = new catchimage(); 
    //获得html文本内容 
    string html = cm.gethtml(url); 
    //获取图片标签 
    list<string> imgurl = cm.getimageurl(html); 
    //获取图片src地址 
    list<string> imgsrc = cm.getimagesrc(imgurl); 
    //下载图片 
    cm.download(imgsrc); 
  } 
   
   
  /*** 
   * 获取html内容 
   * 
   * @param url 
   * @return 
   * @throws exception 
   */ 
  private string gethtml(string url) throws exception { 
    url uri = new url(url); 
    urlconnection connection = uri.openconnection(); 
    inputstream in = connection.getinputstream(); 
    byte[] buf = new byte[1024]; 
    int length = 0; 
    stringbuffer sb = new stringbuffer(); 
    while ((length = in.read(buf, 0, buf.length)) > 0) { 
      sb.append(new string(buf, ecoding)); 
    } 
    in.close(); 
    return sb.tostring(); 
  } 
 
  /*** 
   * 获取imageurl地址 
   * 
   * @param html 
   * @return 
   */ 
  private list<string> getimageurl(string html) { 
    matcher matcher = pattern.compile(imgurl_reg).matcher(html); 
    list<string> listimgurl = new arraylist<string>(); 
    while (matcher.find()) { 
      listimgurl.add(matcher.group()); 
    } 
    return listimgurl; 
  } 
 
  /*** 
   * 获取imagesrc地址 
   * 
   * @param listimageurl 
   * @return 
   */ 
  private list<string> getimagesrc(list<string> listimageurl) { 
    list<string> listimgsrc = new arraylist<string>(); 
    for (string image : listimageurl) { 
      matcher matcher = pattern.compile(imgsrc_reg).matcher(image); 
      while (matcher.find()) { 
        listimgsrc.add(matcher.group().substring(0, matcher.group().length() - 1)); 
      } 
    } 
    return listimgsrc; 
  } 
 
  /*** 
   * 下载图片 
   * 
   * @param listimgsrc 
   */ 
  private void download(list<string> listimgsrc) { 
    try { 
      for (string url : listimgsrc) { 
        string imagename = url.substring(url.lastindexof("/") + 1, url.length()); 
        url uri = new url(url); 
        inputstream in = uri.openstream(); 
        fileoutputstream fo = new fileoutputstream(new file(imagename)); 
        byte[] buf = new byte[1024]; 
        int length = 0; 
        system.out.println("开始下载:" + url); 
        while ((length = in.read(buf, 0, buf.length)) != -1) { 
          fo.write(buf, 0, length); 
        } 
        in.close(); 
        fo.close(); 
        system.out.println(imagename + "下载完成"); 
      } 
    } catch (exception e) { 
      system.out.println("下载失败"); 
    } 
  } 
 
   
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

JAVA中4种解析XML文件的方法

xml是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。xml在不同的语言环境中解析方式都是一样的,只不过实现... [阅读全文]
快速了解JAVA中的Random()函数

java中存在着两种random函数：一、java.lang.math.random;　　调用这个math.random()函数能够返回带正号的double值，... [阅读全文]
JAVA.io读写文件方式汇总

一、java把这些不同来源和目标的数据都统一抽象为数据流。　　java语言的输入输出功能是十分强大而灵活的。　　在java类库中，io部分的内容是很庞大的，因为... [阅读全文]
SpringBoot加载应用事件监听器代码实例

利用 spring 工厂加载机制，实例化 applicationlistener 实现类，并排序对象集合创建应用事件监听器创建类实现接口applicationl... [阅读全文]
详解JAVA中接口的定义和接口的实现

1.接口的定义使用interface来定义一个接口。接口定义同类的定义类似，也是分为接口的声明和接口体，其中接口体由常量定义和方法定义两部分组成。定义接口的基本... [阅读全文]
SpringBoot上下文初始器加载过程详解

利用 spring 工厂加载机制，实例化 applicationcontextinitializer 实现类，并排序对象集合。关键方法private <t... [阅读全文]
深入了解JAVA Jersey框架

java jersey的详情概述jersey是一个restful请求服务java框架，与常规的java编程使用的struts框架类似，它主要用于处理业务逻辑层。... [阅读全文]
apollo与springboot集成实现动态刷新配置的教程详解

分布式apollo简介apollo（阿波罗）是携程框架部门研发的开源配置管理中心，能够集中化管理应用不同环境、不同集群的配置，配置修改后能够实时推送到应用端，并... [阅读全文]
SpringBoot基于Shiro处理ajax请求代码实例

写一个shiro的过滤器import cn.erika.demo.common.model.vo.message;import com.alibaba.fast... [阅读全文]
如何在JAVA中使用Synchronized

《编程思想之多线程与多进程(1)——以操作系统的角度述说线程与进程》一文详细讲述了线程、进程的关系及在操作系统中的表现，这是多线程学习必须了解的基础。本文将接着... [阅读全文]

网友评论


验证码：

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论