当前位置：移动技术网 > IT编程>开发语言>Java > Java高效读取大文件实例分析

Java高效读取大文件实例分析

2019年07月19日 | 移动技术网IT编程 | 我要评论

康维琪,酷6网站,手机北斗网

1、概述

本教程将演示如何用java高效地读取大文件。java——回归基础。

2、在内存中读取

读取文件行的标准方式是在内存中读取，guava和apachecommonsio都提供了如下所示快速读取文件行的方法：

files.readlines(new file(path), charsets.utf_8);

fileutils.readlines(new file(path));

这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致程序抛出outofmemoryerror异常。

例如：读取一个大约1g的文件：

@test
public void givenusingguava_wheniteratingafile_thenworks() throws ioexception {
  string path = ...
  files.readlines(new file(path), charsets.utf_8);
}

这种方式开始时只占用很少的内存：（大约消耗了0mb内存）

[main] info org.baeldung.java.corejavaiounittest - total memory: 128 mb
[main] info org.baeldung.java.corejavaiounittest - free memory: 116 mb

然而，当文件全部读到内存中后，我们最后可以看到（大约消耗了2gb内存）：

[main] info org.baeldung.java.corejavaiounittest - total memory: 2666 mb
[main] info org.baeldung.java.corejavaiounittest - free memory: 490 mb

这意味这一过程大约耗费了2.1gb的内存——原因很简单：现在文件的所有行都被存储在内存中。

把文件所有的内容都放在内存中很快会耗尽可用内存——不论实际可用内存有多大，这点是显而易见的。

此外，我们通常不需要把文件的所有行一次性地放入内存中——相反，我们只需要遍历文件的每一行，然后做相应的处理，处理完之后把它扔掉。所以，这正是我们将要做的——通过行迭代，而不是把所有行都放在内存中。

3、文件流

现在让我们看下这种解决方案——我们将使用java.util.scanner类扫描文件的内容，一行一行连续地读取：

fileinputstream inputstream = null;
scanner sc = null;
try {
  inputstream = new fileinputstream(path);
  sc = new scanner(inputstream, "utf-8");
  while (sc.hasnextline()) {
    string line = sc.nextline();
    // system.out.println(line);
  }
  // note that scanner suppresses exceptions
  if (sc.ioexception() != null) {
    throw sc.ioexception();
  }
} finally {
  if (inputstream != null) {
    inputstream.close();
  }
  if (sc != null) {
    sc.close();
  }
}

这种方案将会遍历文件中的所有行——允许对每一行进行处理，而不保持对它的引用。总之没有把它们存放在内存中：（大约消耗了150mb内存）

[main]infoorg.baeldung.java.corejavaiounittest-totalmemory:763mb

[main]infoorg.baeldung.java.corejavaiounittest-freememory:605mb

4、apachecommonsio流

同样也可以使用commonsio库实现，利用该库提供的自定义lineiterator:

lineiterator it = fileutils.lineiterator(thefile, "utf-8");
try {
  while (it.hasnext()) {
    string line = it.nextline();
    // do something with line
  }
} finally {
  lineiterator.closequietly(it);
}

由于整个文件不是全部存放在内存中，这也就导致相当保守的内存消耗：（大约消耗了150mb内存）

[main]infoo.b.java.corejavaiointegrationtest-totalmemory:752mb

[main]infoo.b.java.corejavaiointegrationtest-freememory:564mb

5、结论

这篇短文介绍了如何在不重复读取与不耗尽内存的情况下处理大文件——这为大文件的处理提供了一个有用的解决办法。

所有这些例子的实现和代码片段都可以在我的github项目上获取到——这是一个基于eclipse的项目，所以它应该很容易被导入和运行。

以上就是本文关于java高效读取大文件实例分析的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]

网友评论


验证码：

Java高效读取大文件实例分析

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论