当前位置：移动技术网 > IT编程>开发语言>Java > java利用url实现网页内容的抓取

java利用url实现网页内容的抓取

2019年07月22日 | 移动技术网IT编程 | 我要评论

乡愁四韵吉他谱,601587,搜狗02kkk

闲来无事，刚学会把git部署到远程服务器，没事做，所以简单做了一个抓取网页信息的小工具，里面的一些数值如果设成参数的话可能扩展性能会更好！希望这是一个好的开始把，也让我对字符串的读取掌握的更加熟练了，值得注意的是java1.8 里面在使用string拼接字符串的时候，会自动把你要拼接的字符串用stringbulider来处理，大大优化了string 的性能，闲话不多说，show my xxx code～

运行效果：

首先打开百度百科，搜索词条，比如“演员”，再按f12查看源码

然后抓取你想要的标签，注入linkedhashmap里面就ok了，很简单是吧！看看代码罗

import java.io.bufferedreader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.httpurlconnection;
import java.net.url;
import java.util.*;
/**
 * created by chunmiao on 17-3-10.
 */
public class readbaidusearch {
 //储存返回结果
 private linkedhashmap<string,string> mapofbaike;
 //获取搜索信息
 public linkedhashmap<string,string> getinfomationofbaike(string infomationwords) throws ioexception {
  mapofbaike = getresult(infomationwords);
  return mapofbaike;
 }
 //通过网络链接获取信息
 private static linkedhashmap<string, string> getresult(string keywords) throws ioexception {
  //搜索的url
  string keyurl = "http://baike.baidu.com/search?word=" + keywords;
  //搜索词条的节点
  string startnode = "<dl class=\"search-list\">";
  //词条的链接关键字
  string keyofhref = "href=\"";
  //词条的标题关键字
  string keyoftitle = "target=\"_blank\">";
  string endnode = "</dl>";
  boolean isnode = false;
  string title;
  string href;
  string rline;
  linkedhashmap<string,string> keymap = new linkedhashmap<string,string>();
  //开始网络请求
  url url = new url(keyurl);
  httpurlconnection urlconnection = (httpurlconnection) url.openconnection();
  inputstreamreader inputstreamreader = new inputstreamreader(urlconnection.getinputstream(),"utf-8");
  bufferedreader bufferedreader = new bufferedreader(inputstreamreader);
  //读取网页内容
  while ((rline = bufferedreader.readline()) != null){
   //判断目标节点是否出现
   if(rline.contains(startnode)){
    isnode = true;
   }
   //若目标节点出现，则开始抓取数据
   if (isnode){
    //若目标结束节点出现，则结束读取，节省读取时间
    if (rline.contains(endnode)) {
     //关闭读取流
     bufferedreader.close();
     inputstreamreader.close();
     break;
    }
    //若值为空则不读取
    if (((title = getname(rline,keyoftitle)) != "") && ((href = gethref(rline,keyofhref)) != "")){
     keymap.put(title,href);
    }
   }
  }
  return keymap;
 }
 //获取词条对应的url
 private static string gethref(string rline,string keyofhref){
  string baikeurl = "http://baike.baidu.com";
  string result = "";
  if(rline.contains(keyofhref)){
   //获取url
   for (int j = rline.indexof(keyofhref) + keyofhref.length();j < rline.length()&&(rline.charat(j) != '\"');j ++){
    result += rline.charat(j);
   }
   //获取的url中可能不含baikeurl,如果没有则在头部添加一个
   if(!result.contains(baikeurl)){
    result = baikeurl + result;
   }
  }
  return result;
 }
 //获取词条对应的名称
 private static string getname(string rline,string keyoftitle){
  string result = "";
  //获取标题内容
  if(rline.contains(keyoftitle)){
   result = rline.substring(rline.indexof(keyoftitle) + keyoftitle.length(),rline.length());
   //将标题中的内容含有的标签去掉
   result = result.replaceall("<em>|</em>|</a>|<a>","");
  }
  return result;
 }
}

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，同时也希望多多支持移动技术网！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]

网友评论


验证码：

java利用url实现网页内容的抓取

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论