当前位置：移动技术网 > IT编程>开发语言>Java > java使用htmlparser提取网页纯文本例子

java使用htmlparser提取网页纯文本例子

2019年07月22日 | 移动技术网IT编程 | 我要评论

package com.test;

import org.htmlparser.node;
import org.htmlparser.nodefilter;
import org.htmlparser.parser;
import org.htmlparser.filters.tagnamefilter;
import org.htmlparser.tags.tabletag;
import org.htmlparser.util.nodelist;

/**
* 标题:利用htmlparser提取网页纯文本的例子
*/
public class testhtmlparser {
public static void testhtml() {
    try {
        string scurrentline;
        string stotalstring;
        scurrentline = "";
        stotalstring = "";
        java.io.inputstream l_urlstream;
        java.net.url l_url = new java.net.url("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.httpurlconnection l_connection = (java.net.httpurlconnection) l_url.openconnection();
        l_connection.connect();
        l_urlstream = l_connection.getinputstream();
        java.io.bufferedreader l_reader = new java.io.bufferedreader(new java.io.inputstreamreader(l_urlstream));
        while ((scurrentline = l_reader.readline()) != null) {
          stotalstring += scurrentline+"/r/n";
        // system.out.println(stotalstring);
        }
        string testtext = extracttext(stotalstring);
        system.out.println( testtext );

    } catch (exception e) {
        e.printstacktrace();
    }

}

public static string extracttext(string inputhtml) throws exception {
    stringbuffer text = new stringbuffer();
    parser parser = parser.createparser(new string(inputhtml.getbytes(),"gbk"), "gbk");
    // 遍历所有的节点
    nodelist nodes = parser.extractallnodesthatmatch(new nodefilter() {
        public boolean accept(node node) {
          return true;
        }
    });

    system.out.println(nodes.size()); //打印节点的数量
    for (int i=0;i<nodes.size();i++){
         node nodet = nodes.elementat(i);
         //system.out.println(nodet.gettext());
        text.append(new string(nodet.toplaintextstring().getbytes("gbk"))+"/r/n");
    }
    return text.tostring();
}

public static void test5(string resource) throws exception {
    parser myparser = new parser(resource);
    myparser.setencoding("gbk");
    string filterstr = "table";
    nodefilter filter = new tagnamefilter(filterstr);
    nodelist nodelist = myparser.extractallnodesthatmatch(filter);
    tabletag tabletag = (tabletag) nodelist.elementat(11);

}

public static void main(string[] args) throws exception {
// test5("http://www.google.com");
testhtml();
}
}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

springcloud中feign调用处理mybatis-plus Ipage反序列化问题。

通过feign接口返回的分页列表IPage，出现报错，具体报错内容如下：feign.codec.DecodeEx... [阅读全文]
大数据云计算——Azkaban组件

什么是 AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器，主要用于在一个... [阅读全文]
荐聊聊数据库表结构设计心得

本文讨论是一般表的设计，有一定的普遍性和通用性，当然对于特殊性的考量则不在本文讨论之列。自增 idJava 层的... [阅读全文]
SpringCloud各个组件最强总结

一、概念1.1 什么是Spring Cloud？Spring Cloud就是微服务系统架构的一站式解决方案，在平... [阅读全文]
微服务之SpringCloud

# 微服务介绍将一个原本独立的系统拆分成多个小型服务，这些小型服务都在各自独立的进程中运行，并使用轻量级机制通信... [阅读全文]
劝退记：如你如我，平庸且不甘 | 年中总结

关于我前端劝退师，最近也叫前端失业师。没能力没学历没背景，三无前端。工作第四年，想和优秀的一批人竞争，永远和自己... [阅读全文]
Flume 史上最全面的大数据学习第十篇（一）别再说不知道flume是什么了

昨天没有增加小粉丝，我反思了一下自己，是不是我写的东西太过枯燥了呀！挺难受的！算了还是不说了，每天都是美好的一天... [阅读全文]
一直想学习Java网络编程，却不知道怎么入门？

其实，我刚学习Netty的时候，也是很迷茫的，直到有一天，一个同事收到了阿里的offer，他要去阿里做中台了，临... [阅读全文]
SpringCloud相关笔记一系统架构的演变(一)

SpringCloudSpringBoot 四种属性注入小结1.@Autowired注入2.构造方法注入3.@B... [阅读全文]
面试官：说说Kafka控制器事件处理全流程

前言大家好，我是 yes。这是Kafka源码分析第四篇文章，今天来说说 Kafka控制器，即 Kafka Con... [阅读全文]

网友评论


验证码：

java使用htmlparser提取网页纯文本例子

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论