当前位置：移动技术网 > IT编程>开发语言>Java > 【策略与优化 - 001】- 在特定场景下，如何对双层循环进行降级，加速数据匹配？

【策略与优化 - 001】- 在特定场景下，如何对双层循环进行降级，加速数据匹配？

2019年01月05日 | 移动技术网IT编程 | 我要评论

温舒网oaw5,宝宝老是拉肚子,女孩拒搭讪被打死

一、场景介绍

假设某次搜索结果中有 100_0000 篇文章，而你的个人收藏中有 10000 篇，如何在短时间内快速识别 100_0000 中哪些是 “已收藏”，哪些是 “未收藏” ？

二、正常逻辑（双层for 循环）

public class foreachtest {
    public static void main(string[] args) {
        // user book list
        list<string> ublist = new arraylist<>();
        
        // book list
        list<string> blist = new arraylist<>();
        
        // 收藏的数据条数
        int collectionnum = 10000;
        // 总条数
        int total = 100_0000;
        
        // 预计要存储的结果，也可以定义在要返回到页面实体的状态中
        map<string, integer> resmap = new hashmap<>(total);
        
        // 初始化 个人中心收藏的数据
        for (int i = 0; i < collectionnum; i++) {
            ublist.add(string.valueof(i));
        }
        
        // 初始化 搜索结果中返回的数据，同时维护一个 个人与文章 相关的状态map
        // 状态初始结果为 0：“未收藏”， 1：“已收藏”
        for (int i = 0; i < total; i++) {
            blist.add(string.valueof(i));
            
            //如果这个 blist 中存储的是 实体对象，则可以在存入数据的时候，就初始化一个未收藏的状态
            resmap.put(string.valueof(i), 0);
        }

        // 记录开始时间
        long start = system.currenttimemillis();

        /* for 双层循环*/
        for (string b : blist) {
            for (string ub : ublist) {
                if (b.equals(ub)) {
                    resmap.put(b, 1);
                }
            }
        }
        
        // 结束时间
        long end = system.currenttimemillis();
        // 用时时长 ms
        system.out.println("耗时 ms: " + (end - start));
    }
}

注：在这几次的测试中，都没有涉及内存的消耗与数据准备的时间，具体查看时间计算的区间！

测试数据：

　　collectionnum： 10000

　　total ： 100 0000

　　消耗时间：

结论：双层 for 循环，遍历了 100亿次，用时 62秒左右

三、利用 hashmap 底层，减少无效的遍历

public class foreachtest {
    public static void main(string[] args) {
        // user book list
        list<string> ublist = new arraylist<>();
        
        // book list
        list<string> blist = new arraylist<>();
        
        // 收藏的数据条数
        int collectionnum = 10000;
        // 总条数
        int total = 100_0000;
        
        // 预计要存储的结果，也可以定义在要返回到页面实体的状态中
        map<string, integer> resmap = new hashmap<>(total);
        
        // 初始化 个人中心收藏的数据
        for (int i = 0; i < collectionnum; i++) {
            ublist.add(string.valueof(i));
        }
        
        // 初始化 搜索结果中返回的数据，同时维护一个 个人与文章 相关的状态map
        // 状态初始结果为 0：“未收藏”， 1：“已收藏”
        for (int i = 0; i < total; i++) {
            blist.add(string.valueof(i));
            
            //如果这个 blist 中存储的是 实体对象，则可以在存入数据的时候，就初始化一个未收藏的状态
            resmap.put(string.valueof(i), 0);
        }

        // 记录开始时间
        long start = system.currenttimemillis();

        // 将 个人中心收藏的数据，转化存储到 map 中，
        // 注意 收藏的文章的id 作为key，value 随意，这里使用同样使用了 id
        map<string, string> ubmap = new hashmap<>();
        for (string ubid : ublist) {
            ubmap.put(ubid, ubid);
        }

        // 开始遍历 搜索结果中的 100万条数据，是否有被个人收藏过的，有就改变返回的状态。
        for (string bid : blist) {
            // 直接使用 ubmap 的查找key 值是否存在的方式，判断该文章是否已经收藏。
            if (ubmap.containskey(bid)){
                resmap.put(bid, 1);
            }
        }
        
        // 结束时间
        long end = system.currenttimemillis();
        // 用时时长 ms
        system.out.println("耗时 ms: " + (end - start));
    }
}

测试数据：

　　collectionnum： 10000

　　total ： 100 0000

　　消耗时间：

结论：一层循环，加上内部的 hash 计算，用时 51ms

四、总结

条件：两组数据分别没有重复的数据（id 或者根据对比的字段不重复，也可以根据业务琢磨，即放在 map 中的 key 值不重复）

需求：对比一组数据中的数据，是否在另一组中有对应的匹配数据

结论：使用 hashmap 的 key值进行查找，明显快于双层 for 循环，for 循环消耗的时间是 key 值查找的 100多倍！！！

五、原理解析

1. 双层 for 循环就不需要多解释，纯粹的 10000 x 100 00000 = 100 亿的遍历次数

2. hashmap 快的原因在于将 id 值作为 map 的key存储在map中，而 map 底层是数组在存储数据，此处不对链表和树结构进行说明。通过计算 id 的 hashcode 值，再与 map 的容量 size 求余数，直接获取到该条数据在 hashmap 中的下标，而不是逐一的去查找数据。故使用 hashmap 只循环了一次 + 少量运算，速度明显有所突破。

3. 根据需要控制内存消耗大小，你可以自定义将数据多的放在 map 或者将数据少的放在 map 中，也就是在控制外层循环的次数，外层大，则占用内存就小，时间上可能会有所增加。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]