网络爬虫案例解析_Java

网络爬虫案例解析

网络爬虫（又被称为网页蜘蛛，网络机器人，在foaf社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径，网站针对搜索引擎爬虫的优化曾风靡一时。

网络爬虫的基本工作流程如下：

1.首先选取一部分精心挑选的种子url；

2.将这些url放入待抓取url队列；

3.从待抓取url队列中取出待抓取在url，解析dns，并且得到主机的ip，并将url对应的网页下载下来，存储进已下载网页库中。此外，将这些url放进已抓取url队列。

4.分析已抓取url队列中的url，分析其中的其他url，并且将url放入待抓取url队列，从而进入下一个循环。

当然，上面说的那些我都不懂，以我现在的理解，我们请求一个网址，服务器返回给我们一个超级大文本，而我们的浏览器可以将这个超级大文本解析成我们说看到的华丽的页面

那么，我们只需要把这个超级大文本看成一个足够大的string 字符串就ok了。

下面是我的代码

package main.spider;
import org.jsoup.jsoup;
import org.jsoup.nodes.document;
import org.jsoup.nodes.element;
import org.jsoup.select.elements;
import java.io.ioexception;
/**
 * created by 1755790963 on 2017/3/10.
 */
public class second {
  public static void main(string[] args) throws ioexception {
    system.out.println("begin");
    document document = jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    string selector="div[class=d_post_content j_d_post_content clearfix]";
    elements elements = document.select(selector);
    for (element element:elements){
      string word= element.text();
      if(word.indexof("@")>0){
        word=word.substring(0,word.lastindexof("@")+7);
        system.out.println(word);
      }
      system.out.println(word);
    }
  }
}

我在这里使用了apache公司所提供的jsoup jar包，jsoup 是一款java 的html解析器，可直接解析某个url地址、html文本内容。它提供了一套非常省力的api，可通过dom，css以及类似于jquery的操作方法来取出和操作数据。

在代码里，我们可以直接使用jsoup类，并.出jsoup的connect()方法，这个方法返回一个org.jsoup.connection对象，参数则是网站的url地址，connection对象有一个get()方法返回document对象

document对象的select方法可以返回一个elements对象，而elements对象正式element对象的集合，但select()方法需要我们传入一个string参数，这个参数就是我们的选择器

string selector="div[class=d_post_content j_d_post_content clearfix]";

我们的选择器语法类似于jquery的选择器语法，可以选取html页面中的元素，选择好后，就可以便利elements集合，通过element的text()方法获取html中的代码

这样，一个最简单的网络爬虫就写完了。

我选择的网址是豆瓣网，留下你的邮箱，我会给你发邮件这样一个百度贴吧，我扒的是所有人的邮箱地址

附上结果：

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，同时也希望多多支持移动技术网！

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

Android离线版车牌号识别相关问题

领导说自动识别不好用，必须要先拍照，然后识别照片逻辑才正常感谢大神的无私奉献，原文链接：https://gith... [阅读全文]

如何将JSP/Servlet项目转换为Spring Boot项目

创建spring boot应用在基于spring来重构jsp应用之前，我们先引入spring boot，使之成为一个spring boot应用。你只需要在原来的... [阅读全文]

Java如何通过Maven管理项目依赖

项目的依赖java最大的一个优势之一应该是整个生态中无数的框架和api，我们创建实际的项目不可避免的都需要用到这些框架和api，而它们通常都是以jar包的形式提... [阅读全文]

Java INPUTSTREAM如何实现重复使用

引语：之前做项目的时候遇到一个问题,就是从网络中读取的图片要上传到oss,而且要对图片进行裁剪和压缩,其中上传和裁剪都要使用到图片的inputstream,又因... [阅读全文]

Gradle相对于Maven有哪些优点

一、gradle介绍gradle和maven作为自动构建工具，在项目的构建中有着广泛的应用。他们之间有各自的优缺点，这里我们讨论下他们在项目构建中的一些区别并进... [阅读全文]

Eclipse手动导入DTD文件实现方法解析

dtd一般应用在应用程序中定义数据交换类型的文档，一般用在xml配置文件中，有些时候在eclipse中并不能加载一些提示，这个时候需要手动导入，导入方法如下：　... [阅读全文]

Spring OAuth2.0 单元测试解决方案

为什么需要单元测试单元测试拥有保证代码质量、尽早发现软件 bug、简化调试过程、促进变化并简化集成、使流程更灵活等优势。单元测试是针对代码单元的独立测试，核心是... [阅读全文]

GIT相关-IDEA/ECLIPSE工具配置的教程详解

git安装访问: https://git-scm.com/downloads ，进入git'下载页面，根据个人操作系统下载对应软件版本，默认下载最新版；双击安装... [阅读全文]

IDEA配置GIT的详细教程

注：此方法可用于配置gitlab也可用于配置github1.在github中创建一个账号：2.下载并安装git：3.安装成功后打开git bash，输入下列命令... [阅读全文]

如何测试Spring MVC应用

spring的依赖注入使得我们的代码非常容易进行单元测试——@controller, @service，@entity等注解标注的类基本都是pojo(plain... [阅读全文]


验证码：

验证码：

网络爬虫案例解析

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论