当前位置：移动技术网 > IT编程>开发语言>Java > Java可以像Python一样方便爬去世间万物

Java可以像Python一样方便爬去世间万物

2018年11月05日 | 移动技术网IT编程 | 我要评论

前言：

之前在大二的时候，接触到了python语言，主要是接触python爬虫那一块
比如我们常用的requests，re，beautifulsoup库等等
当时为了清理数据和效率，还专门学了正则表达式，异常的佩服自己哈哈哈哈哈
最近闲着无事干，秉承是java是世界上最好的语言，python能干，为啥java不行
说刚就刚，以下以两个小例子还说明java做爬虫一样可以像python哪样方便

技术：

springboot
httpclient
jsoup
httpclientutil
等

贴吧一键签到：

我们要知道，不管是你访问一个页面，还是登录注册
本质就是发送http请求
http请求大致有四种
- get
- post
- delete
- put
我们常用的也就是两种get请求获取页面资源
post请求发送数据
所以我们的思路如下：
- 向某个url发送get请求，获取html页面
- 用正则或者第三方工具清理数据
- 获得数据以后在进行后续操作
- 比如在get请求
- 或者直接存到数据库中怎么样的

　　1. 获取html页面：

 1 public void execute(string username) {
 2         // 获取cookie
 3         string cookie = getcookie(username);
 4         // 获取首页html内容
 5         string content = http.get("http://tieba.baidu.com/mo/", cookie);
 6         // 获取所有连接
 7         string links = getmore(content);
 8         links = "http://tieba.baidu.com" + links;
 9         // 获取所有贴吧html内容
10         content = http.get(links, cookie);
11         list<string> likeslink = getlike(content);
12         sign(likeslink, cookie, username);
13     }

　　我们用第三方工具包 httpclientutil 可以直接发送get请求(已经封装好的)

　 2.清理数据：

 1 private void sign(list<string> likeslink, string cookie, string username) {
 2         for (string link : likeslink) {
 3             string content = http.get(link, cookie);
 4             document doc = jsoup.parse(content);
 5             elements titles = doc.getelementsbyclass("bc");
 6             string title = titles.get(0).text();
 7             title = title.split("吧")[0];
 8             elements links = doc.select("a[href]");
 9             boolean flag = true;
10             for (element ele : links) {
11                 string ss = ele.attr("href");
12                 ss = "http://tieba.baidu.com" + ss;
13                 if (ss.contains("sign")) {
14                     http.get(ss, cookie);
15                     // 插入到数据库中
16                     string date = new simpledateformat("yyyy-mm-dd hh:mm:ss.sss").format(new date());
17                     dao.insertrecord(username, title, date, "签到成功");
18                     flag = false;
19                     break;
20                 }
21             }
22             if (flag) {
23                 // 插入到数据库中
24                 string date = new simpledateformat("yyyy-mm-dd hh:mm:ss.sss").format(new date());
25                 dao.insertrecord(username, title, date, "已签到");
26             }
27         }
28     }

　　我们这里用的第三方工具 jsoup， jsoup可以像dom一样简单的获取任何东西。甚至你可以用这个则来进行获取。

　　项目源码：贴吧一键签到

　　项目地址：

爬取天涯房价的帖子：

　　1. 获取html地址：

 1 public list<string> getcontent() {
 2 
 3         list<string> res = new arraylist<>();
 4         // 92是固定的，帖子的总数
 5         for (int i = 1; i <= 92; i++) {
 6             string url = geturl(i);
 7             string content = http.get(url);
 8             getparse(content, res);
 9         }
10         return res;
11     }

　　2.清理数据：

 1 private void getparse(string content, list<string> res) {
 2 
 3         document doc = jsoup.parse(content);
 4         elements links = doc.getelementsbyclass("bd");
 5         for (element link : links) {
 6             string str = link.tostring();
 7             pattern pattern = pattern.compile("<p>[.\\s\\s]+?div");
 8             matcher m = pattern.matcher(str);
 9             while (m.find()) {
10                 string s = m.group();
11                 s = s.replaceall("<", "");
12                 s = s.replaceall(">", "");
13                 s = s.replaceall("/", "");
14                 s = s.replaceall("p", "");
15                 s = s.replaceall("div", "");
16                 s = s.replaceall("\n", "");
17                 res.add(s);
18             }
19         }
20     }

　　项目源码：

总结：

　　用java做爬虫，无非两点

获取html
清理页面

　　当我们这两点都会的时候，那么就十分的简单了。当然这里也用到了第三方的开源jar包

获取html => httpclient
清理数据 => jsoup

ps. 如果你对爬虫也感兴趣，我之前写过一个爬知乎图片的爬虫前方高能

　　可以自己爬下来，慢慢欣赏，不用谢我

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Java开发语法基础介绍

Day01对第一个java程序进行总结public static void main(String[] args... [阅读全文]
SpringMVC开发实际项目的详细介绍

前言过了下SpringMVC，简单总结一下。知识点一. 基本概念1.1 三层架构表现层：即web层，负责接收客户... [阅读全文]
Spring-Boot快速集成netty-socketio(socket服务实现，支持认证)

Spring-Boot快速集成netty-socketio(socket服务实现，支持认证)netty-sock... [阅读全文]
java数据结构（数组和链表的使用）

一.数组的数据结构先声明一个List接口,声明一下线性数据结构的规则package day11;/** * 声明... [阅读全文]
JTable的创建及数据添加

JTable基本使用表格创建public class Ui extends JFrame { privat... [阅读全文]
java登录页面的实现步骤

开发工具与关键技术：作者：盘耀海撰写时间：撰写时间：2020年08月08日~~~~~~~~~~~~~~~~~~~... [阅读全文]
JavaSE异常处理（异常分类、异常实际作用）

目录1.异常的基本概念2.异常的分类2.1异常的层次结构2.2异常的分类2.2.1编译时异常2.2.2运行时异常... [阅读全文]
Spring 循环依赖的产生及解决方案的分析

循环依赖的产生以下面代码为例，A 依赖 B，B 依赖 A。@Componentpublic class A { ... [阅读全文]
java手写SORM框架（根据表结构生成java类源代码）

继续添加源代码 [阅读全文]
Java开发中的并发（线程的创建和使用）

·································我们当中的绝大多数人，在人到中年之后，都很难活... [阅读全文]