当前位置：移动技术网 > IT编程>开发语言>Java > 零基础写Java知乎爬虫之准备工作

零基础写Java知乎爬虫之准备工作

2019年07月22日 | 移动技术网IT编程 | 我要评论

开篇我们还是和原来一样，讲一讲做爬虫的思路以及需要准备的知识吧，高手们请直接忽略。

首先我们来缕一缕思绪，想想到底要做什么，列个简单的需求。

需求如下：

1.模拟访问知乎官网（）

2.下载指定的页面内容，包括：今日最热，本月最热，编辑推荐

3.下载指定分类中的所有问答，比如：投资，编程，挂科

4.下载指定回答者的所有回答

5.最好有个一键点赞的变态功能（这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了！）

那么需要解决的技术问题简单罗列如下：

1.模拟浏览器访问网页

2.抓取关键数据并保存到本地

3.解决网页浏览中的动态加载问题

4.使用树状结构海量抓取知乎的所有内容

好的，目前就想了这些。

接下来就是准备工作了。

1.确定爬虫语言：由于以前写过一系列爬虫教程（点击这里），百度贴吧，糗事百科，山东大学的绩点查询等都是用python写的，所以这次决定使用java来写（喂完全没有半毛钱联系好吗）。

2.科普爬虫知识：网络爬虫，即web spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请（点击这里）。

3.准备爬虫环境：jdk和eclipse的安装和配置就不多说啦。这里啰嗦一句，一个好用的浏览器对于爬虫来说非常重要，因为首先你需要自己浏览网页知道你需要的东西在哪里，你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器，或者谷歌浏览器，它们的右键审查元素和查看源代码的功能都非常强大。

下面我们开始正式的爬虫之旅！~具体讲些什么呢，恩，这是个问题，让我好好想想，别急^_^

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

[JVM学习之路]一、初识JVM，了解其结构、模型及生命周期

JVM入门简介一、JVM位置JVM是运行在操作系统之上的，与硬件之间没有直接的联系二、JVM的整体结构方法区和堆... [阅读全文]
从 Exadata 到 TiDB，中通快递 HTAP 实践

作者介绍：朱志友，中通快递大数据架构师。中通快递背景介绍中通快递业务的规模目前是世界第一，是第一个达成年百亿业务... [阅读全文]
实时计算入门篇-了解storm

离线计算最近在了解离线系统，根据自己的了解，以及参考网上的相关资料，总结了相关知识，供刚入门的同学们了解。离线计... [阅读全文]
VMware NSX Manager install

前言NSX Manager是一个虚拟设备，提供图形用户界面 (Graphical User Interface,... [阅读全文]
【JAVA并发编程】LinkedBlockingQueue原理

LinkedBlockingQueue原理最近在看并发编程的知识，比如ConcurrentHashMap、Ree... [阅读全文]
Apollo学习笔记

Apollo学习笔记前言apollo=1.6.2相关链接：Apollo Github 地址：https://gi... [阅读全文]
SpringCloud学习笔记——持续更新中

SpringCloud学习笔记1.常见面试题1.1 什么是微服务？1.2 微服务之间如何通信？1.3 Sprin... [阅读全文]
rancher安装fastDFS

fastDFS服务端有两个角色:tracker(跟踪器)和storage(存储节点).22122是跟踪器的端口.... [阅读全文]
MyBatis知识概括

MyBatis知识概括MyBatis介绍MyBatis介绍 [阅读全文]
Spring Boot 太狠了，一次性发布了 3 个版本！

Spring Boot 太狠了，北京时间 2020/07/25 今天一次性发布了三个主要版本，三条版本线同时更新... [阅读全文]

网友评论


验证码：

零基础写Java知乎爬虫之准备工作

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论