说起垃圾收集(garbage collection,gc),大部分人都把这项技术当做java语言的伴生产物。事实上,gc的历史远比java久远,1960年诞生于mit的lisp是第一门真正使用内存动态分配和垃圾收集技术的语言。当list还在胚胎时期时,人们就在思考gc需要完成的3件事情:
一、哪些内存需要回收?
从jvm区域结构看,可将这些区域划分为“静态内存”和“动态内存”两类。程序计数器、虚拟机栈、本地方法3个区域是“静态”的,因为这几个区域的内存分配和回收都具备确定性,都随着线程而生,随着线程而灭。但java堆和方法区不一样,内存分配都存在不确定性,只有在程序处于运行期间才能知道会创建哪些对象,这部分内存和回收都是动态的,垃圾收集器所关注的是这部分内存。
在堆里面存放着java世界几乎所有的对象实例,垃圾回收器在对堆进行回收前,第一件事情就是就是要确定这些对象哪些还"存活"着,哪些已经"死去"。那么又怎么确定对象已经"死去"呢?
1.引用计数法:
分配对象时给对象添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是没有再被使用了。客观地说,引用计数法(reference counting)的实现简单,判断效率也很高,但是在主流的java虚拟机里面没有选用引用计数法来管理内存,其中最主要的原因是它很难解决对象之间相互循环引用的问题。例如:
public class referencecountinggc { public object instance = null; private byte[] bigsize = new byte[2*1024*1024]; public static void testgc(){ referencecountinggc obja = new referencecountinggc(); referencecountinggc objb = new referencecountinggc(); obja.instance = objb; objb.instance = obja; obja = null; objb = null; system.gc(); } }
当设置obja = null;objb = null后这两个对象再无任何引用,实际上这两个对象已经不可能再被访问,但是它们因为互相引用着对方,导致它们的引用计数都不为0,于是引用计数算法无法通知gc收集器回收它们。如果这个对象特别大,则会造成严重的内存泄露。
2.可达性分析算法:
可达性分析(reachability analysis)的基本思想是通过一系列的称为“gc roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链(reference chain),当一个对象到gc roots没有任何引用链相连时(也就是gc roots到这个对象不可达),则证明此对象是不可用的。如下图所示:
对象object5、object6、object7相互虽然有关联,但是它们到gc roots是不可达的,所以它们将会被判定为是可回收的对象。在java语言中,可作为gc roots的对象包括下面几种:
二、什么时候回收?
虚拟机为了分析gc roots这项工作必须在一个能确保一致性的快照中进行,这里的“一致性”的意思就是指在整个分析期间整个执行系统看起来就像被冻结在某个时间点上——这叫安全点。当然,程序执行时并非在所有地方都能停顿下来开始gc,只有到达安全点时才能暂停。安全点选址也有规定的,选定基本上是以程序“是否具有让程序长时间执行的特征”为标准进行选定的。这里的长时间执行的最明显特征是指令列复用,例如方法调用、循环跳转、异常跳转等。
虚拟机为了能让所有线程都“跑”到安全点上停顿下来,设计了两个方案:抢先式中断和主动式中断。其中抢先式中断是虚拟机发生gc时,首先把所有线程全部中断,如果发生有线程中断的地方不在安全点上,就恢复线程,让它“跑”到安全点上。这种方式现在比较用了。而主动式中断是虚拟机需要gc时仅仅简单的设置一个标志,各个线程执行到安全点时主动去轮询这个标志,发现中断标志为真时就自己中断挂起。
三、如何回收?
3.1 垃圾收集算法:
(1)标记-清除(mark-sweep)算法
这是最基础的算法,就像它名字一样,算法分为“标记”和“清除”两个阶段:首先标记处所有需要回收的对象(如哪些内存需要回收所描述的对象),对标记完成后统一回收所有被标记的对象,如下图所示:
缺点:一个是效率问题,标记和清除两个过程的效率都不高;另一个是空间问题,标记清除后悔产生大量的不连续的内存碎片,可能会导致后续无法分配大对象而导致再一次触发垃圾收集动作。
(2)复制算法
为了针对标记-清除算法的不足,复制算法将可用内存容量划分为大小相等的两块,每次只使用一块。当一块的内存用完了,就将还存活的对象复制到另一块上面去。然后把已使用过的内存空间一次清理掉,如下图所示:
缺点:使用内存比原来缩小了一半。
现在的商业虚拟机都采用这种收集算法来回收新生代,有企业分析的得出其实并不需求将内存按1:1的比例划分,因为新生代中的对象大部分都是“朝生夕死”的。所以,hotspot虚拟机默认的eden和survivor的大小比例是8:1。一块eden和两块survivor,每次使用一块eden和一块survivor,也就是说只有10%是浪费的。如果另一块survivor都无法存放上次垃圾回收的对象时,那这些对象将通过“担保机制”进入老年代了。
(3)标记-整理(mark-compact)算法
复制算法一般是对对象存活率较低的一种回收操作,但对于对象存活率较高的内存区域(老年代)来说,效果就不是那么理想了,标记-整理算法因此诞生了。标记-整理算法和标记-清除算法差不多,都是一开始对回收对象进行标记,但后续不是直接对对象清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存,如下图所示:
(4)分代收集算法
分代收集算法是目前大部分jvm的垃圾收集器采用的算法。它的核心思想是根据对象存活的生命周期将内存划分为若干个不同的区域。一般情况下将堆区划分为老年代(tenured generation)和新生代(young generation),老年代的特点是每次垃圾收集时只有少量对象需要被回收,而新生代的特点是每次垃圾回收时都有大量的对象需要被回收,那么就可以根据不同代的特点采取最适合的收集算法。
3.2 垃圾收集器:
(1)七种垃圾收集器:
说明:
注意:并行与并发
(2)常用五种组合:
(2.1)serial/serial old:
特点:
说明:
stw(stop the world):编译代码时为每一个方法注入safepoint(方法中循环结束的点、方法执行结束的点),在暂停应用时,需要等待所有的用户线程进入safepoint,之后暂停所有线程,然后进行垃圾回收。
适用场合:
(2.2)parnew/serial old:
说明:
parnew除了采用多gc线程来实现复制算法以外,其他都与serial一样,但是此组合中的serial old又是一个单gc线程,所以该组合是一个比较尴尬的组合,在单cpu情况下没有serial/serial old速度快(因为parnew多线程需要切换),在多cpu情况下又没有之后的三种组合快(因为serial old是单gc线程),所以使用其实不多。
-xx:parallelgcthreads:指定parnew gc线程的数量,默认与cpu核数相同,该参数在于cms gc组合时,也可能会用到
(2.3)parallel scavenge/parallel old:
特点:
说明:
参数设置:
适用场合:
(2.4)parnew/cms:
说明:
特点:
1.年轻代parnew收集器采用多个gc线程实现"复制"算法(包括扫描、复制)
2.年老代cms收集器采用多线程实现"标记-清除"算法
3.初始标记与重新标记都会暂停所有用户线程(即stw),但是时间较短;并发标记与并发清理时间较长,但是不需要stw
关于并发标记期间怎样记录发生变动的引用关系对象,在重新标记期间怎样扫描这些对象
缺点:
参数设置:
适用场合:
用于处理很多的交互任务的情况
方法区的回收一般使用cms,配置两个参数:-xx:+cmspermgensweepingenabled与-xx:+cmsclassunloadingenabled
适用于一些需要长期运行且对相应时间有一定要求的后台程序
(2.5)g1
说明:
原理:
运作流程:
优点:
适用范围:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持移动技术网!
如对本文有疑问, 点击进行留言回复!!
集合框架——Map、泛型以及Collection算法常用方法
Elasticsearch 升级 7.x 版本后,我感觉掉坑里了
Mybatis的插件运行原理以及如何编写一个Mybatis的插件
网友评论