当前位置：移动技术网 > IT编程>开发语言>Java > Java多线程编程实战之模拟大量数据同步

Java多线程编程实战之模拟大量数据同步

2019年07月19日 | 移动技术网IT编程 | 我要评论

熊再珍,三国文学,快乐的节日串词

背景

最近对于 java 多线程做了一段时间的学习，笔者一直认为，学习东西就是要应用到实际的业务需求中的。否则要么无法深入理解，要么硬生生地套用技术只是达到炫技的效果。

不过笔者仍旧认为自己对于多线程掌握不够熟练，不敢轻易应用到生产代码中。这就按照平时工作中遇到的实际问题，脑补了一个很可能存在的业务场景：

已知某公司管理着 1000 个微信服务号，每个服务号有 1w ~ 50w 粉丝不等。假设该公司每天都需要将所有微信服务号的粉丝数据通过调用微信 api 的方式更新到本地数据库。

需求分析

对此需求进行分析，主要存在以下问题：

单个服务号获取粉丝 id，只能每次 1w 按顺序拉取
微信的 api 对于服务商的并发请求数量有限制

单个服务号获取粉丝 id，只能每次 1w 按顺序拉取。这个问题决定了单个公众号在拉取粉丝 id 上，无法分配给多个线程执行。

微信的 api 对于服务商的并发请求数量有限制。这点最容易被忽略，如果我们同时有过多的请求，则会导致接口被封禁。这里可以通过信号量来控制同时执行的线程数量。

为了尽快完成数据同步，根据实际情况：整个数据同步可分为读数据和写数据两个部分。读数据是通过 api 获取，走网络 io，速度较慢；写数据是写到数据库，速度较快。所以得出结论：需要分配较多的线程进行读数据，较少的线程进行写数据。

设计要点

首先，我们需要确定开启多少个线程（在生产中往往是使用线程池），线程数量需要根据服务器性能来决定，这里我们定为 40 个读取数据线程（将 1000 个公众号分为 40 份，分别在 40 个线程中执行），1个写入数据线程。（具体开多少个线程，取决于线程池的容量，以及可以分配给此业务的数量。具体的数字需要根据实际情况测试得出，比服务器阈值低一些较好。当然，配置允许范围内越大越好）

其次，考虑到微信对于 api 并发请求的限制，需要限制同时执行的线程数，使用java.util.concurrent.semaphore进行控制，这里我们限制为 20 个（具体的信号量凭证数，取决于同一时间能够执行的线程，跟 api 限制，服务器性能有关）。

然后，我们需要知道数据何时读取、写入完毕，以控制程序逻辑以及终止程序，这里我们使用java.util.concurrent.countdownlatch进行控制。

最后，我们需要一个数据结构，用来在多个线程中共享处理的数据，此处同步数据的场景非常适合使用队列，这里我们使用线程安全的java.util.concurrent.concurrentlinkedqueue来进行处理。（需要注意的是，在实际开发中，队列不能够无限制地增长，这将会很快消耗掉内存，我们需要根据实际情况对队列长度做控制。例如，可以通过控制读取线程数和写入线程数的比例来控制队列的长度）

模拟代码

由于本文重点关注多线程的使用，模拟代码只体现多线程操作的方法。代码里添加了大量的注释，方便各位读者阅读理解。

jdk：1.8

import java.util.arrays;
import java.util.list;
import java.util.queue;
import java.util.concurrent.concurrentlinkedqueue;
import java.util.concurrent.countdownlatch;
import java.util.concurrent.semaphore;
import java.util.concurrent.timeunit;

/**
 * n个线程向队列添加数据
 * 一个线程消费队列数据
 */
public class queuetest {
  private static list<string> data = arrays.aslist("a", "b", "c", "d", "e");

  private static final int offer_count = 40; // 开启的线程数量

  private static semaphore semaphore = new semaphore(20); // 同一时间执行的线程数量（大多用于控制api调用次数或数据库查询连接数）

  public static void main(string[] args) throws interruptedexception {
    queue<string> queue = new concurrentlinkedqueue<>(); // 处理队列，需要处理的数据，放置到此队列中

    countdownlatch offerlatch = new countdownlatch(offer_count); // offer线程latch，每完成一个，latch减一，lacth的count为0时表示offer处理完毕
    countdownlatch polllatch = new countdownlatch(1); // poll线程latch，latch的count为0时，表示poll处理完毕

    runnable offerrunnable = () -> {
      try {
        semaphore.acquire(); // 信号量控制
      } catch (interruptedexception e) {
        e.printstacktrace();
      }

      try {
        for (string datum : data) {
          queue.offer(datum);
          timeunit.seconds.sleep(2); // 模拟取数据很慢的情况
        }
      } catch (interruptedexception e) {
        e.printstacktrace();
      } finally {
        // 在finally中执行latch.countdown()以及信号量释放，避免因异常导致没有正常释放
        offerlatch.countdown();
        semaphore.release();
      }
    };

    runnable pollrunnable = () -> {
      int count = 0;
      try {
        while (offerlatch.getcount() > 0 || queue.size() > 0) { // 只要offer的latch未执行完，或queue仍旧有数据，则继续循环
          string poll = queue.poll();
          if (poll != null) {
            system.out.println(poll);
            count++;
          }
          // 无论是否poll到数据，均暂停一小段时间，可降低cpu消耗
          timeunit.milliseconds.sleep(100);
        }
        system.out.println("total count:" + count);
      } catch (interruptedexception e) {
        e.printstacktrace();
      } finally {
        // 在finally中执行latch.countdown()，避免因异常导致没有正常释放
        polllatch.countdown();
      }
    };

    // 启动线程（生产环境中建议使用线程池）
    new thread(pollrunnable).start(); // 启动一个poll线程
    for (int i = 0; i < offer_count; i++) {
      new thread(offerrunnable).start();
    } // 模拟取数据很慢，需要开启40个线程处理

    // latch等待，会block主线程直到latch的count为0
    offerlatch.await();
    polllatch.await();

    system.out.println("===the end===");
  }
}

到这里，本文结束。以上是笔者脑补的一个常见需求的解决方案。

注意：多线程编程对实际环境和需求有很大的依赖，需要根据实际的需求情况对各个参数做调整。实际在使用中，需要尽量模拟生产环境的数据情况来进行测试，对服务器执行期间的并发数，cpu、内存、网络 io、磁盘 io 做好观察。并适当地调低并发数，以给服务器留有处理其他请求的余量。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]

网友评论


验证码：

Java多线程编程实战之模拟大量数据同步

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论