利用JSP获取网页源文件并抓取其中的链接地址_Jsp

利用JSP获取网页源文件并抓取其中的链接地址

利用java的net包获取网页源文件，使用正则表达式抓取当中的链接地址，因正则表达式学艺不精，下面这个例子中并不能抓取所有情况下的href属性中的链接地址

test.jsp(SUN企业级应用的首选)

<%@ page contentType="text/html; charset=gb2312" language="java" import="java.util.regex.*" errorPage="" %>
<%
String sCurrentLine;
String sTotalString;
sCurrentLine="";
sTotalString="";
java.io.InputStream l_urlStream;
java.net.URL l_url = new java.net.URL("https://www.5ja.net");
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.connect();
l_urlStream = l_connection.getInputStream();
java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));

while ((sCurrentLine = l_reader.readLine()) != null)
{
sTotalString+=sCurrentLine;
}
//String regEx = "href=([^"]*)>";
String regEx ="href="([^"]*)"";//找出href="****"的链接
Pattern p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(sTotalString);
int j=0;
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
regEx ="href=([^]*)";//找出href=****的链接
p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);//Pattern.CASE_INSENSITIVE查找忽略大小写
m = p.matcher(sTotalString);
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
%>

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

高效简单的jsp分页

<%@ page import="java.sql.*,java.io.*,java.util.*" %> <%@ pag... [阅读全文]

JSP标签自定义（2）---getProperty

这次要实现的是getproperty标签。主要知识点是怎么用反射去调用实例中的方法。重要部分已用注释标注。/** * 类说明：标签处理类，仿... [阅读全文]

JSP中读文件和写文件的例子

<%@ page import="java.io.*" %><html> <head>&nb... [阅读全文]

如何用jsp生成excel文件

介绍:jakarta_poi 使用java读写excel(97-2002)文件，可以满足大部分的需要。因为刚好有一个项目使用到了这个工具，花... [阅读全文]

不用迭代算法而快速实现的jsp树结构

在web页面上实现树状结构,有点麻烦.在最近的一个mis的开发中,我们项目组大量用到了树结构:比如人员的选择,单位的选择等待.这个mis系统... [阅读全文]

jsp 下实现防止重复在线,统计在线人数的办法

防止重复在线,统计在线人数通常由三种办法:1.通过的记录 2.使用servletcontext类型的application3.采用sessi... [阅读全文]

引用：jspSmartUpload上传下载全攻略

作者：未知来源：未知加入时间：2004-8-24　天新软件园一、安装篇　　(sun企业级应用的首选)smartupload是由www.... [阅读全文]

开源代码：JSplashWindow

package nicholas.swing;import java.awt.*;import java.awt.event.*;impor... [阅读全文]

JSP生成验证码源程序

<%@ page contenttype="image/jpeg" import="java.awt.*, java.awt.imag... [阅读全文]

jspSmartUpload上传下载全攻略（四、文件下载篇）

四、文件下载篇 1、下载链接页面download.html 页面如下： <!--文件名：download.html作者：纵横软件制... [阅读全文]


验证码：

验证码：

利用JSP获取网页源文件并抓取其中的链接地址

2018年03月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论