当前位置：移动技术网 > IT编程>开发语言>Java > Java中字符串去重的特性介绍

Java中字符串去重的特性介绍

2019年07月22日 | 移动技术网IT编程 | 我要评论

字符串在任何应用中都占用了大量的内存。尤其数包含独立utf-16字符的char[]数组对jvm内存的消耗贡献最多——因为每个字符占用2位。

内存的30%被字符串消耗其实是很常见的，不仅是因为字符串是与我们互动的最好的格式，而且是由于流行的http api使用了大量的字符串。使用java 8 update 20，我们现在可以接触到一个新特性，叫做字符串去重，该特性需要g1垃圾回收器，该垃圾回收器默认是被关闭的。

字符串去重利用了字符串内部实际是char数组，并且是final的特性，所以jvm可以任意的操纵他们。

对于字符串去重，开发者考虑了大量的策略，但最终的实现采用了下面的方式：

无论何时垃圾回收器访问了string对象，它会对char数组进行一个标记。它获取char数组的hash value并把它和一个对数组的弱引用存在一起。只要垃圾回收器发现另一个字符串，而这个字符串和char数组具有相同的hash code，那么就会对两者进行一个字符一个字符的比对。

如果他们恰好匹配，那么一个字符串就会被修改，指向第二个字符串的char数组。第一个char数组就不再被引用，也就可以被回收了。

这整个过程当然带来了一些开销，但是被很紧实的上限控制了。例如，如果一个字符未发现有重复，那么一段时间之内，它会不再被检查。

那么该特性实际上是怎么工作的呢？首先，你需要刚刚发布的java 8 update 20，然后按照这个配置: -xmx256m -xx:+useg1gc 去运行下列的代码:

public class lotsofstrings {
 
 private static final linkedlist<string> lots_of_strings = new linkedlist<>();
 
 public static void main(string[] args) throws exception {
  int iteration = 0;
  while (true) {
   for (int i = 0; i < 100; i++) {
    for (int j = 0; j < 1000; j++) {
     lots_of_strings.add(new string("string " + j));
    }
   }
   iteration++;
   system.out.println("survived iteration: " + iteration);
   thread.sleep(100);
  }
 }
}

这段代码会执行30个迭代之后报outofmemoryerror。

现在，开启字符串去重，使用如下配置去跑上述代码：

-xmx256m -xx:+useg1gc -xx:+usestringdeduplication -xx:+printstringdeduplicationstatistics

此时它已经可以运行更长的时间，而且在50个迭代之后才终止。

jvm现在同样打印出了它做了什么，让我们一起看一下：

[gc concurrent-string-deduplication, 4658.2k->0.0b(4658.2k), avg 99.6%, 0.0165023 secs]
  [last exec: 0.0165023 secs, idle: 0.0953764 secs, blocked: 0/0.0000000 secs]
   [inspected:     119538]
     [skipped:       0( 0.0%)]
     [hashed:     119538(100.0%)]
     [known:        0( 0.0%)]
     [new:       119538(100.0%)  4658.2k]
   [deduplicated:    119538(100.0%)  4658.2k(100.0%)]
     [young:       372( 0.3%)   14.5k( 0.3%)]
     [old:       119166( 99.7%)  4643.8k( 99.7%)]
  [total exec: 4/0.0802259 secs, idle: 4/0.6491928 secs, blocked: 0/0.0000000 secs]
   [inspected:     557503]
     [skipped:       0( 0.0%)]
     [hashed:     556191( 99.8%)]
     [known:       903( 0.2%)]
     [new:       556600( 99.8%)   21.2m]
   [deduplicated:    554727( 99.7%)   21.1m( 99.6%)]
     [young:       1101( 0.2%)   43.0k( 0.2%)]
     [old:       553626( 99.8%)   21.1m( 99.8%)]
  [table]
   [memory usage: 81.1k]
   [size: 2048, min: 1024, max: 16777216]
   [entries: 2776, load: 135.5%, cached: 0, added: 2776, removed: 0]
   [resize count: 1, shrink threshold: 1365(66.7%), grow threshold: 4096(200.0%)]
   [rehash count: 0, rehash threshold: 120, hash seed: 0x0]
   [age threshold: 3]
  [queue]
   [dropped: 0]

为了方便，我们不需要自己去计算所有数据的加和，使用方便的总计就可以了。

上面的代码段规定执行了字符串去重，花了16ms的时间，查看了约 120 k 字符串。

上面的特性是刚推出的，意味着可能并没有被全面的审视。具体的数据在实际的应用中可能看起来有差别，尤其是那些应用中字符串被多次使用和传递，因此一些字符串可能被跳过或者早就有了hashcode（正如你可能知道的那样，一个string的hash code是被懒加载的）。

在上述的案例中，所有的字符串都被去重了，在内存中移除了4.5mb的数据。

[table]部分给出了有关内部跟踪表的统计信息，[queue]则列出了有多少对去重的请求由于负载被丢弃，这也是开销减少机制中的一部分。

那么，字符串去重和字符串驻留相比又有什么差别呢？事实上，字符串去重和驻留看起来差不多，除了暂留的机制重用了整个字符串实例，而不仅仅是字符数组。

jdk enhancement proposal 192的创造者的争论点在于开发者们常常不知道将驻留字符串放在哪里合适,或者是合适的地方被框架所隐藏.就像我写的那样,当碰到复制字符串(像国家名字)的时候,你需要一些常识.字符串去重,对于在同一个jvm中的应用程序的字符串复制也有好处,同样包括像xml schemas,urls以及jar名字等一般认为不会出现多次的字符串.

当字符串驻留发生在应用程序线程中的时候,垃圾回收异步并发处理时,字符串去重也不会增加运行时的消耗.这也解释了,为什么我们会在上面的代码中发现thread.sleep().如果没有sleep会给gc增加太多的压力,这样字符串去重根本就不会发生.但是,这只是示例代码才会出现的问题.实际的应用程序,常常会在运行字符串去重的时候使用几毫秒的时间.

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

before社区电量是什么意思 Before社区电量获得方法

before社区电量是什么意思？怎么获得更多的电量？有的朋友对此可能还不太清楚，今天，小编为大家带来了before社区电量获得方法。感兴趣的朋友快来了解一下吧。... [阅读全文]
Before社区怎么同步快手 Before社区绑定快手教程

before社区怎么同步快手？在before社区中，用户可以绑定自己的快手，对快手账户进行关联，今天，小编为大家带来了before社区绑定快手教程。感兴趣的玩家... [阅读全文]
before社区怎么加入小组 before社区关注小组教程

before社区怎么加入小组？before社区是由快手推出的一个主要面向年轻人的兴趣社交平台，在before社区中有许多的小组，今天，小编为大家带来了befor... [阅读全文]
before社区怎么玩 Before社区玩法分享

before社区怎么玩？快手正式上线了一款青年文化社区产品before社区。产品定位是专为文艺青年打造的互动交友社区。今天，小编为大家带来了详细的介绍，感兴趣的... [阅读全文]
springboot解决跨域请求带cookie的问题

记录一次解决Spring boot加vue的跨域问题大家都知道vue跨域请求Spring boot的时候，后端服... [阅读全文]
RecycleView入门详解（教你全面掌握RecycleView用法）

RecycleView小白入门详解（教你全面掌握其用法）RecycleView概念效果展示RecycleView... [阅读全文]
Android Emoji表情字符列表

https://apps.timwhitlock.info/emoji/tables/unicodeimport... [阅读全文]
动态权限请求框架RxPermissions(几行代码搞定权限)

RxPermissions简单使用描述：随着社会的发展人们也开始重视对隐私的保护，谷歌也在Android6.0（... [阅读全文]
ExoPlayer之Extractor媒体文件解封装使用

ExoPlayer之ExtractorExtractor的作用接口说明Extractor的调用内置的Extrac... [阅读全文]
URL路径@PathVariable出现点号“.“时值遭截断问题

一：问题描述SpringMVC项目中通过下面的ＵＲＬ进行GET请求。当version有多个小数点的时候。如ver... [阅读全文]

网友评论


验证码：

Java中字符串去重的特性介绍

2019年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论