当前位置：移动技术网 > IT编程>开发语言>Java > java读取txt文件，对字符串进行操作后导出txt文件

java读取txt文件，对字符串进行操作后导出txt文件

2018年11月22日 | 移动技术网IT编程 | 我要评论

相比于c#，java爬虫，python爬虫更为方便简要，首先呢，python的urllib2包提供了较为完整的访问网页文档的api，再者呢对于摘下来的文章，python的提供了简洁的文档处理功能，这就成就了他爬虫的优势。

作为一名满脑子要成为一名大牛的程序员小白来讲，倒不是非要热爱哪一门语言，还是觉得哪一个好用而用之。

那么今天呢就来给大家分享一个我喜欢但是不好用的java爬虫系列...

先上码和效果图

package org.lq.wzq.test;
/**
 * 读取青年网的数据，并进行分析
 * xutao   2018-11-22  09：09
 */
import java.io.*;
import java.net.*;

public class pachong {
    public static void main(string args[]){
        //确定爬取的网页地址，此处为青年网热点新闻的网页
        //网址为       http://news.youth.cn/sz/201811/t20181121_11792273.htm
        string strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";
        //建立url爬取核心对象
        try {
            url url=new url(strurl);
            //通过url建立与网页的连接
            urlconnection conn=url.openconnection();
            //通过链接取得网页返回的数据
            inputstream is=conn.getinputstream();
            system.out.println(conn.getcontentencoding());
            //一般按行读取网页数据，并进行内容分析
            //因此用bufferedreader和inputstreamreader把字节流转化为字符流的缓冲流
            //进行转换时，需要处理编码格式问题   注意一般为gbk或者utf-8（乱码就换另外一个）
            bufferedreader br=new bufferedreader(new inputstreamreader(is,"gbk"));
            //按行读取并打印
            string line=null;
            while((line=br.readline())!=null){
                system.out.println(line);
            }
            br.close();
        } catch (exception e) {
            // todo auto-generated catch block
            e.printstacktrace();
        }
        
    }
}

查看网站源码，你就会发现程序爬取的其实就是整个网页

而代码则是一行一行输出的，具体的整理关键点在于正则表达式的应用，拿到适合自己的数据，最后在储存到txt或者excle表格中。

具体详情请观看

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

第一章第八小节Duilib的绘制基础类CRenderEngine和CRenderClip

Duilib是一个直接绘制的界面库，所以它的核心之一当然还是怎么绘制的问题，在Duilib里采用的绘制的基础库是... [阅读全文]
视频处理器为电池供电的设计提供4K视频编码

视频处理器为电池供电的设计提供4K视频编码Video processor enables 4K video co... [阅读全文]
Java 学习到什么程度可以找第一份工作？

现在很晚了，但是看到这个问题还是比较有感触的。一年前，我大三上学期，创业失败，想转行做技术。那时候我对Java刚... [阅读全文]
ssm+Redis开发模式

一、当前互联网开发环境互联网行业经过多年的发展，需要的已经不只是管理系统了，大量的网站更加复杂的项目，有着高并发... [阅读全文]
PAT_B_1035_Java(25分)

import java.util.Scanner; public class Main {static int... [阅读全文]
荐 ffmpeg播放器实现详解 - 搭建框架

ffplay是ffmpeg源码中一个自带的开源播放器实例，同时支持本地视频文件的播放以及在线流媒体播放，功能非常... [阅读全文]
8、OpenGL - 渲染框架

OpenGL 渲染架构1、渲染架构顶点着色器、片元着色器，可以自定义编程图元装配、渲染，是我们不可以控制的1.1... [阅读全文]
苹果CMSv10最新原创炫酷黑渐变特色自适应视频站模板

苹果cms10好看的模板自适应_苹果cmsv10高端模板_苹果cmsv10简洁模板酷黑渐变特色功能触动封面直接... [阅读全文]
英语口语练习经验分享

易混淆的元音/辅音元音辨析/i:/ vs /i//i:/发长音，/i/发短音，/i:/发音时嘴巴咧开像在微笑，/... [阅读全文]
荐 [OpenSim]CMC Tool文件设置

[OpenSim]CMC Tool文件设置关于本博客内容，为作者仿真模拟过程中的经验积累示例文件：Arm26模型... [阅读全文]

网友评论


验证码：

java读取txt文件，对字符串进行操作后导出txt文件

2018年11月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论