当前位置：移动技术网 > IT编程>开发语言>Java > Java内存映射，上G大文件轻松处理

Java内存映射，上G大文件轻松处理

2019年08月14日 | 移动技术网IT编程 | 我要评论

内存映射文件(memory-mapped file)，指的是将一段虚拟内存逐字节映射于一个文件，使得应用程序处理文件如同访问主内存（但在真正使用到这些数据前却不会消耗物理内存，也不会有读写磁盘的操作），这要比直接文件读写快几个数量级。

稍微解释一下虚拟内存（很明显，不是物理内存），它是计算机系统内存管理的一种技术。像施了妖法一样使得应用程序认为它拥有连续的可用的内存，实际上呢，它通常是被分隔成多个物理内存的碎片，还有部分暂时存储在外部磁盘存储器上，在需要时进行数据交换。

内存映射文件主要的用处是增加 i/o 性能，特别是针对大文件。对于小文件，内存映射文件反而会导致碎片空间的浪费，因为内存映射总是要对齐页边界，最小单位是 4 kib，一个 5 kib 的文件将会映射占用 8 kib 内存，也就会浪费 3 kib 内存。

java.nio 包使得内存映射变得非常简单，其中的核心类叫做 mappedbytebuffer，字面意思为映射的字节缓冲区。

01、使用 mappedbytebuffer 读取文件

假设现在有一个文件，名叫 cmower.txt，里面的内容是：

沉默王二，一个有趣的程序员

ps：哎，改不了王婆卖瓜自卖自夸这个臭毛病了，因为文章被盗得都怕了。

这个文件放在 /resource 目录下，我们可以通过下面的方法获取到它：

classloader classloader = cmower.class.getclassloader();
path path = paths.get(classloader.getresource("cmower.txt").getpath());

path 既可以表示一个目录，也可以表示一个文件，就像 file 那样——当然了，path 是用来取代 file 的。

然后，从文件中获取一个 channel（通道，对磁盘文件的一种抽象）。

filechannel filechannel = filechannel.open(path);

紧接着，调用 filechannel 类的 map 方法从 channel 中获取 mappedbytebuffer，此类扩展了 bytebuffer——提供了一些内存映射文件的基本操作方法。

mappedbytebuffer mappedbytebuffer = filechannel.map(mode, position, size);

稍微解释一下 map 方法的三个参数。

1）mode 为文件映射模式，分为三种：

mapmode.read_only（只读），任何试图修改缓冲区的操作将导致抛出 readonlybufferexception 异常。
mapmode.read_write（读/写），任何对缓冲区的更改都会在某个时刻写入文件中。需要注意的是，其他映射同一个文件的程序可能不能立即看到这些修改，多个程序同时进行文件映射的行为依赖于操作系统。
mapmode.private（私有），对缓冲区的更改不会被写入到该文件，任何修改对这个缓冲区来说都是私有的。

2）position 为文件映射时的起始位置。

3）size 为要映射的区域的大小，必须是非负数，不得大于integer.max_value。

一旦把文件映射到内存缓冲区，我们就可以把里面的数据读入到 charbuffer 中并打印出来。具体的代码示例如下。

charbuffer charbuffer = null;
classloader classloader = cmower.class.getclassloader();
path path = paths.get(classloader.getresource("cmower.txt").getpath());
try (filechannel filechannel = filechannel.open(path)) {
    mappedbytebuffer mappedbytebuffer = filechannel.map(mapmode.read_only, 0, filechannel.size());

    if (mappedbytebuffer != null) {
        charbuffer = charset.forname("utf-8").decode(mappedbytebuffer);
    }

    system.out.println(charbuffer.tostring());
} catch (ioexception e) {
    e.printstacktrace();
}

由于 decode() 方法的参数是 mappedbytebuffer，这就意味着我们是从内存中而不是磁盘中读入的文件内容，所以速度会非常快。

02、使用 mappedbytebuffer 写入文件

假设现在要把下面的内容写入到一个文件，名叫 cmower1.txt。

沉默王二，《web全栈开发进阶之路》作者

这个文件还没有创建，计划放在项目的 classpath 目录下。

 path path = paths.get("cmower1.txt");

具体位置见下图所示。

然后，创建文件的通道。

filechannel filechannel = filechannel.open(path, standardopenoption.read, standardopenoption.write,
                standardopenoption.truncate_existing)

仍然使用的 open 方法，不过增加了 3 个参数，前 2 个很好理解，表示文件可读（read）、可写（write）；第 3 个参数 truncate_existing 的意思是如果文件已经存在，并且文件已经打开将要进行 write 操作，则其长度被截断为 0。

紧接着，仍然调用 filechannel 类的 map 方法从 channel 中获取 mappedbytebuffer。

 mappedbytebuffer mappedbytebuffer = filechannel.map(mapmode.read_write, 0, 1024);

这一次，我们把模式调整为 mapmode.read_write，并且指定文件大小为 1024，即 1kb 的大小。然后使用 mappedbytebuffer 中的 put() 方法将 charbuffer 的内容保存到文件中。具体的代码示例如下。

charbuffer charbuffer = charbuffer.wrap("沉默王二，《web全栈开发进阶之路》作者");

path path = paths.get("cmower1.txt");

try (filechannel filechannel = filechannel.open(path, standardopenoption.read, standardopenoption.write,
        standardopenoption.truncate_existing)) {
    mappedbytebuffer mappedbytebuffer = filechannel.map(mapmode.read_write, 0, 1024);

    if (mappedbytebuffer != null) {
        mappedbytebuffer.put(charset.forname("utf-8").encode(charbuffer));
    }

} catch (ioexception e) {
    e.printstacktrace();
}

可以打开 cmower1.txt 查看一下内容，确认预期的内容有没有写入成功。

03、mappedbytebuffer 的遗憾

据说，在 java 中使用 mappedbytebuffer 是一件非常麻烦并且痛苦的事，主要表现有：

1）一次 map 的大小最好限制在 1.5g 左右，重复 map 会增加虚拟内存回收和重新分配的压力。也就是说，如果文件大小不确定的话，就不太友好。

2）虚拟内存由操作系统来决定什么时候刷新到磁盘，这个时间不太容易被程序控制。

3）mappedbytebuffer 的回收方式比较诡异。

再次强调，这三种说法都是据说，我暂时能力有限，也不能确定这种说法的准确性，很遗憾。

04、比较文件操作的处理时间

嗨，朋友，阅读完以上的内容之后，我想你一定对内存映射文件有了大致的了解。但我相信，如果你是一名负责任的程序员，你一定还想知道：内存映射文件的读取速度究竟有多快。

为了得出结论，我叫了另外三名竞赛的选手：inputstream（普通输入流）、bufferedinputstream（带缓冲的输入流）、randomaccessfile（随机访问文件）。

读取的对象是加勒比海盗4惊涛怪浪.mkv，大小为 1.71g。

1）普通输入流

public static void inputstream(path filename) {
    try (inputstream is = files.newinputstream(filename)) {
        int c;
        while((c = is.read()) != -1) {

        }
    } catch (ioexception e) {
        e.printstacktrace();
    }
}

2）带缓冲的输入流

public static void bufferedinputstream(path filename) {
    try (inputstream is = new bufferedinputstream(files.newinputstream(filename))) {
        int c;
        while((c = is.read()) != -1) {

        }
    } catch (ioexception e) {
        e.printstacktrace();
    }
}

3）随机访问文件

public static void randomaccessfile(path filename) {
    try (randomaccessfile randomaccessfile  = new randomaccessfile(filename.tofile(), "r")) {
        for (long i = 0; i < randomaccessfile.length(); i++) {
            randomaccessfile.seek(i);
        }
    } catch (ioexception e) {
        e.printstacktrace();
    }
}

4）内存映射文件

public static void mappedfile(path filename) {
    try (filechannel filechannel = filechannel.open(filename)) {
        long size = filechannel.size();
        mappedbytebuffer mappedbytebuffer = filechannel.map(mapmode.read_only, 0, size);
        for (int i = 0; i < size; i++) {
            mappedbytebuffer.get(i);
        }
    } catch (ioexception e) {
        e.printstacktrace();
    }
}

测试程序也很简单，大致如下：

long start = system.currenttimemillis();
bufferedinputstream(paths.get("jialebi.mkv"));
long end = system.currenttimemillis();
system.out.println(end-start);

四名选手的结果如下表所示。

方法	时间
普通输入流	龟速，没有耐心等出结果
随机访问文件	龟速，没有耐心等下去
带缓冲的输入流	29966
内存映射文件	914

普通输入流和随机访问文件都慢得要命，真的是龟速，我没有耐心等待出结果；带缓冲的输入流的表现还不错，但相比内存映射文件就逊色多了。由此得出的结论就是：内存映射文件，上g大文件轻松处理。

05、最后

本篇文章主要介绍了 java 的内存映射文件，mappedbytebuffer 是其灵魂，读取速度快如火箭。另外，所有这些示例和代码片段都可以在 github 上找到——这是一个 maven 项目，所以它很容易导入和运行。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

09.数据的条件查询操作

1. 条件查询WHERE筛选条件为true，则返回查询记录# 语法SELECT 查询列表 FROM 数据表名称 ... [阅读全文]
齐治堡垒机，功能诠释表！

堡垒机现如今走进很多企业或者是政府单位，在如今这个互联网的社会，也愈发让很多企业更加的重视安全，很多安全产品被广... [阅读全文]
SpringBoot引用阿里easyexcel，Excel导出返回浏览器下载

现在大的小的系统，各家的产品都差不多，一般运营或者产品规划的时候都会要求做一些导入导出数据的功能，他说供我统计或汇报用。好吧，我们苦逼的程序员开始干活了。 [阅读全文]
虚拟机下载apache2,解决虚拟机黑屏问题

这里写自定义目录标题虚拟机下载apache2虚拟机下载apache2更换代理在root下输入 wget... [阅读全文]
HashMap、Hashtable、ConcurrentHashMap三者间的异同

Hashtable 和 HashMap 的区别与联系1.两者都继承与map接口，所以两者的遍历方式大同小异2.H... [阅读全文]
等保测评--计算环境之终端设备安全

信息安全等级保护，是对信息和信息载体按照重要性等级分级别进行保护的一种工作，在中国、美国等很多国家都存在的一种信... [阅读全文]
解决RecycleView 中Item包含Edittext时，滑动view复用导致数据错乱的问题

解决RecycleView 中Item包含Edittext时，滑动导致数据错乱的问题一言不合就上代码：overr... [阅读全文]
[每日一练] Java 2020.7.28

1.关于以下application,说法正确是什么？public class Test { static ... [阅读全文]
学习多线程造成线程不同步的原因数组实现简单的栈三

java代码package com.baigu.demo1.stack;public class TestSta... [阅读全文]
多线程、同步工作原理、死锁案例、Lock接口、线程的生命周期的讲解及实现

多线程进程正在运行的程序，称为进程，一个应用程序在内存中占用的资源才是进程线程线程:是进程中的某-功能开启了一条... [阅读全文]