当前位置：移动技术网 > IT编程>开发语言>Java > crawler4j抓取页面使用jsoup解析html时的解决方法

crawler4j抓取页面使用jsoup解析html时的解决方法

2019年07月22日 | 移动技术网IT编程 | 我要评论

crawler4j对已有编码的页面抓取效果不错，用jsoup解析，很多会jquery的程序员都可以操作。但是，crawler4j对response没有指定编码的页面，解析成乱码，很让人烦恼。在找了苦闷之中，无意间发现一年代已久的博文，可以解决问题，修改 page.load() 中的 contentdata 编码即可，这让我心中顿时舒坦了很多，接下来的问题都引刃而解了。

复制代码代码如下:

public void load(httpentity entity) throws exception {
 contenttype = null;  
    header type = entity.getcontenttype();  
    if (type != null) {  
        contenttype = type.getvalue();  
    }  

    contentencoding = null;  
    header encoding = entity.getcontentencoding();  
    if (encoding != null) {  
        contentencoding = encoding.getvalue();  
    }  

    charset charset = contenttype.getordefault(entity).getcharset();  
    if (charset != null) {  
        contentcharset = charset.displayname();   
    }else{
     contentcharset = "utf-8";
    }

   //源码
   //contentdata = entityutils.tobytearray(entity);  
    //修改后的代码
    contentdata = entityutils.tostring(entity, charset.forname("gbk")).getbytes();

}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Idea部署tomcat服务实现过程图解

先配置项目的artifacts配置启动项创建一个tomcat服务选择需要启动的服务（上面配置的artifacts）启动服务以上就是本文的全部内容，希望对大家的学... [阅读全文]
在Ubuntu20.04 LTS中配置Java开发环境

下载java开发工具包jdkjdk的下载地址为：。点击红色方框中的jdk download链接。在下载页面中根据自己的系统选择对应的jdk版本，此处以ubunt... [阅读全文]
IDEA社区版下载安装流程详解(小白篇)

本人一直使用的是eclipse作为开发工具的，不过现在idea非常的受推崇，所以决定上手试一试。网上有很多旗舰版的文章，我没有仔细看，我这次是决定使用社区版的i... [阅读全文]
Java泛型extends及super区别实例解析

<? extends t>和<? super t>是java泛型中的“通配符（wildcards）”和“边界（bound... [阅读全文]
详解idea切换git账号的两个方法

两个方法可能都行，可能都不行，可能行一个，每个人遇到的问题不一样，自行排查吧方法一：win10/win7凭据管理器处修改!1.win10点击cortana小圆圈... [阅读全文]
IDEA怎么切换Git分支的实现方法

情景描述在项目开发过程中，不同项目阶段可能会有不同的分支，当创建好一个分支后，就需要将代码切换到这个分支上进行代码同步，例如将当前 origin/master ... [阅读全文]
Vscode中不再支持JDK8的原因分析及解决方案

昨天还用得好好的，今天突然给我说仅支持jdk11以上了，也不能进行正常的代码补全了。看了一下，是language support for java™... [阅读全文]
Maven访问仓库顺序代码实例解析

maven项目使用的仓库一共有如下几种方式：中央仓库，这是默认的仓库镜像仓库，通过 sttings.xml 中的 settings.mirrors.mi... [阅读全文]
Spring如何使用xml创建bean对象

一、导入jar包二、配置applicationcontext.xml的spring核心配置三、 public static void main(string[]... [阅读全文]
Spring Boot设置支持跨域请求过程详解

现代浏览器出于安全的考虑， http 请求时必须遵守同源策略，否则就是跨域的 http 请求，默认情况下是被禁止的，ip（域名）不同、或者端口不同、协议不同（比... [阅读全文]

网友评论


验证码：

crawler4j抓取页面使用jsoup解析html时的解决方法

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论