当前位置：移动技术网 > IT编程>开发语言>Java > java正则表达式匹配网页所有网址和链接文字的示例

java正则表达式匹配网页所有网址和链接文字的示例

2019年07月22日 | 移动技术网IT编程 | 我要评论

综琼瑶之凤鸾,棋牌游戏赚钱,拉里维

import java.io.bufferedreader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.malformedurlexception;
import java.net.url;
import java.util.arraylist;
import java.util.hashmap;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;

import java.net.*;
import java.io.*;
import java.util.regex.*;

/*
根据指定的规则，通过构造正则表达式获取网址
*/

public class urls
{
    private string starturl;                                         //开始采集网址
    string urlcontent;
    string contentarea;
    private string strareabegin ,strareaend ;            //采集区域开始采集字符串和结束采集字符串
    private string stringinurl,stringnotinurl;
    string strcontent;//获得的采集内容
    string[] allurls;                                                            //采集到的所有网址
    private string regex;                                                 //采集规则

    urlandtitle   urlandtitle=new urlandtitle();    //存储网址和标题


    public static void main(string[] args)
    {
         urls myurl=new urls("<body","/body>");
         myurl.getstarturl("http://www.zuzwn.com/");
         myurl.geturlcontent();
         myurl.getcontentarea();
         myurl.getstarturl("http://www.zuzwn.com/");
         myurl.getstringnotinurl("google");
         myurl.urls();

        //system.out.println("starturl:"+myurl.starturl);
        //system.out.println("urlcontent:"+myurl.urlcontent);
        //system.out.println("contentarea:"+myurl.contentarea);

    }


    //初始化构造函数 strareabegin 和strareaend

    public urls (string strareabegin,string strareaend)
    {
        this.strareabegin=strareabegin;
        this.strareaend=strareaend;
}

//
    public void urls()
    {
        int i=0;
        //string regex ="<a href="?'?http://[a-za-z0-9]+/.[a-za-z0-9]+/.[a-za-z]+/?[/.?[/s|/s]]+[a>]$";
        string regex ="<a.*?/a>";
         //string regex ="http://.*?>";
        pattern pt=pattern.compile(regex);
        matcher mt=pt.matcher(contentarea);
        while(mt.find())
         {
                 system.out.println(mt.group());
                 i++;

                 //获取标题
                 matcher title=pattern.compile(">.*?</a>").matcher(mt.group());
                 while(title.find())
                 {
                      system.out.println("标题:"+title.group().replaceall(">|</a>",""));
                 }

                 //获取网址
                 matcher myurl=pattern.compile("href=.*?>").matcher(mt.group());
                 while(myurl.find())
                 {
                      system.out.println("网址:"+myurl.group().replaceall("href=|>",""));
                 }

                 system.out.println();


         }

        system.out.println("共有"+i+"个符合结果");

    }

    //获得开始采集网址
    public void getstarturl(string starturl)
    {
        this.starturl=starturl;
    }

    //获得网址所在内容;
    public void geturlcontent()
    {

        stringbuffer is=new stringbuffer();
        try
        {
            url myurl=new url(starturl);
            bufferedreader br= new bufferedreader(
                                                        new inputstreamreader(myurl.openstream()));

            string s;
            while((s=br.readline())!=null)
            {
                is.append(s);
            }
            urlcontent=is.tostring();
        }
    catch(exception e)

    {
        system.out.println("网址文件未能输出");
        e.printstacktrace();
    }


    }


    //获得网址所在的匹配区域部分
    public void getcontentarea()
    {
         int pos1=0,pos2=0;
         pos1= urlcontent.indexof(strareabegin)+strareabegin.length();
         pos2=urlcontent.indexof(strareaend,pos1);
         contentarea=urlcontent.substring(pos1,pos2);
    }

    //以下两个函数获得网址应该要包含的关键字及不能包含的关键字
    //这里只做初步的实验。后期，保护的关键字及不能包含的关键字应该是不只一个的。
    public void getstringinurl(string stringinurl)
    {
         this.stringinurl=stringinurl;

    }

    public void getstringnotinurl(string stringnotinurl)
    {
        this.stringnotinurl=stringnotinurl;
    }

    //获取采集规则

    //获取url网址
    public void geturl()
    {

    }

    public string getregex()
    {
        return regex;

    }

    class urlandtitle
    {
        string myurl;
        string title;
    }
}

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

JAVA中4种解析XML文件的方法

xml是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。xml在不同的语言环境中解析方式都是一样的,只不过实现... [阅读全文]
快速了解JAVA中的Random()函数

java中存在着两种random函数：一、java.lang.math.random;　　调用这个math.random()函数能够返回带正号的double值，... [阅读全文]
JAVA.io读写文件方式汇总

一、java把这些不同来源和目标的数据都统一抽象为数据流。　　java语言的输入输出功能是十分强大而灵活的。　　在java类库中，io部分的内容是很庞大的，因为... [阅读全文]
SpringBoot加载应用事件监听器代码实例

利用 spring 工厂加载机制，实例化 applicationlistener 实现类，并排序对象集合创建应用事件监听器创建类实现接口applicationl... [阅读全文]
详解JAVA中接口的定义和接口的实现

1.接口的定义使用interface来定义一个接口。接口定义同类的定义类似，也是分为接口的声明和接口体，其中接口体由常量定义和方法定义两部分组成。定义接口的基本... [阅读全文]
SpringBoot上下文初始器加载过程详解

利用 spring 工厂加载机制，实例化 applicationcontextinitializer 实现类，并排序对象集合。关键方法private <t... [阅读全文]
深入了解JAVA Jersey框架

java jersey的详情概述jersey是一个restful请求服务java框架，与常规的java编程使用的struts框架类似，它主要用于处理业务逻辑层。... [阅读全文]
apollo与springboot集成实现动态刷新配置的教程详解

分布式apollo简介apollo（阿波罗）是携程框架部门研发的开源配置管理中心，能够集中化管理应用不同环境、不同集群的配置，配置修改后能够实时推送到应用端，并... [阅读全文]
SpringBoot基于Shiro处理ajax请求代码实例

写一个shiro的过滤器import cn.erika.demo.common.model.vo.message;import com.alibaba.fast... [阅读全文]
如何在JAVA中使用Synchronized

《编程思想之多线程与多进程(1)——以操作系统的角度述说线程与进程》一文详细讲述了线程、进程的关系及在操作系统中的表现，这是多线程学习必须了解的基础。本文将接着... [阅读全文]

网友评论


验证码：

java正则表达式匹配网页所有网址和链接文字的示例

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论