JVM垃圾收集算法

垃圾收集简介

在 Java 开发的世界里，内存管理是保障程序高效、稳定运行的基石，而垃圾收集机制则是这一基石中不可或缺的重要部分。想象一下，在一个大型的 Java 应用程序中，无数的对象被创建出来，它们如同忙碌的小工蚁，各自承担着不同的任务。随着程序的运行，一些对象完成了使命，不再被使用，若不及时清理这些 “退役” 对象所占用的内存，内存资源将会被逐渐耗尽，程序就会陷入内存不足的困境，最终导致崩溃。这就好比一个房间，如果不及时清理垃圾，很快就会变得杂乱无章，无法正常生活。

垃圾收集机制就像是一位勤劳的清洁工人，默默地在幕后工作，自动检测并回收那些不再被引用的对象所占用的内存空间，确保内存的高效利用，避免内存泄漏和内存溢出等问题的发生。它让 Java 开发者们从繁琐的手动内存管理工作中解脱出来，能够更加专注于业务逻辑的实现。而垃圾收集机制的核心，便是各种精妙的垃圾收集算法，它们决定了垃圾收集的效率和效果。接下来，让我们深入探索 JVM 垃圾收集算法的神秘世界，揭开它们的工作原理和奥秘。

垃圾的判定

在 JVM 执行垃圾回收任务之前，首先要精准地判断哪些对象已经 “死亡”，不再被程序所需要，从而可以回收它们占用的内存空间。目前，主要有引用计数法和可达性分析算法这两种方式来完成这项关键的判断工作。它们就像是 JVM 的 “生死裁决官”，依据各自的规则，对每个对象的命运做出公正的裁决。

详细介绍参考 JVM如何判断对象是否存活？

经典垃圾收集算法剖析

在 Java 虚拟机（JVM）的垃圾收集体系中，垃圾收集算法是核心部分，它们决定了垃圾收集的效率和效果。不同的垃圾收集算法适用于不同的场景，了解这些算法的原理和特点，对于 Java 开发者优化程序性能、解决内存相关问题至关重要。下面将详细介绍几种经典的垃圾收集算法。

标记 - 清除算法

标记 - 清除算法（Mark-Sweep）是一种基础且直观的垃圾收集算法，诞生于 1960 年并应用于 Lisp 语言，在垃圾收集领域有着重要的历史地位。它的工作过程主要分为标记和清除两个阶段。

在标记阶段，垃圾收集器从根对象（GC Roots）出发，通过可达性分析算法，遍历所有对象的引用关系，标记出所有存活的对象。例如，在一个 Java 程序中，假设存在多个对象，其中一些对象通过方法栈中的局部变量、类的静态属性等与 GC Roots 建立了引用关系，垃圾收集器会沿着这些引用链，将这些可达的对象标记出来。

当标记阶段完成后，进入清除阶段。垃圾收集器会对整个内存空间进行线性遍历，回收所有未被标记的对象，即那些不可达的对象所占用的内存空间。可以将这个过程想象成打扫房间，先把还需要的物品贴上标签，然后清理掉没有标签的物品。

尽管标记 - 清除算法实现相对简单，不需要额外的内存空间来完成垃圾回收，但其缺点也较为明显。一方面，标记和清除两个阶段的执行效率都比较低。在标记阶段，需要遍历所有对象来标记存活对象；在清除阶段，又要遍历整个内存空间来回收垃圾对象，这在对象数量庞大时会消耗大量的时间和资源。另一方面，这种算法会产生内存碎片问题。由于回收的内存空间是不连续的，随着垃圾回收的不断进行，内存中会出现大量的小碎片，这些碎片可能导致后续在分配大对象时，即使总的空闲内存足够，但由于无法找到连续的足够大的内存块，从而不得不提前触发垃圾回收，甚至导致内存分配失败。比如，在一个频繁创建和销毁对象的程序中，使用标记 - 清除算法一段时间后，内存中会出现许多零散的空闲小块，当需要创建一个较大的对象时，就可能因为没有连续的大内存块而无法分配内存。

复制算法

为了解决标记 - 清除算法产生的内存碎片问题，复制算法（Copying）应运而生。复制算法的核心思想是将内存空间划分为大小相等的两块，每次只使用其中一块。当这一块内存使用完后，将存活的对象复制到另一块内存上，然后把使用过的这块内存一次性清理掉，使其成为空闲状态。

具体来说，在进行垃圾回收时，首先会遍历当前使用的内存块，将存活的对象逐一复制到另一块空闲的内存块中，并且按照顺序紧凑排列。复制完成后，直接将原来使用的内存块全部回收，此时两块内存的角色互换，原来空闲的内存块变为使用块，而原来使用的内存块变为空闲块，等待下一次垃圾回收时使用。就好像有两个一模一样的房间，一个房间放满了东西，当需要整理时，把有用的东西搬到另一个空房间，然后把原来的房间彻底清理干净，下次再从这个清理干净的房间开始使用。

复制算法的优点显著，它解决了内存碎片的问题，因为存活对象在复制过程中是紧凑排列的，使得内存空间始终保持连续，后续内存分配更加高效。同时，复制算法的实现相对简单，运行效率较高，特别是在存活对象较少的情况下，复制操作的开销较小，能够快速完成垃圾回收任务。

然而，复制算法也存在明显的缺陷，那就是内存利用率较低。由于始终有一半的内存处于闲置状态，等待被使用，这在内存资源紧张的情况下是一种较大的浪费。例如，在一个对内存空间要求较高的嵌入式系统中，这种内存浪费可能会对系统性能产生较大影响。为了减少内存浪费，在 JVM 的新生代中，通常采用一种优化的复制算法，将新生代划分为一个较大的 Eden 区和两个较小的 Survivor 区（一般 Eden 区与 Survivor 区的大小比例为 8:1）。每次新对象都在 Eden 区分配内存，当 Eden 区满时，触发 Minor GC，将 Eden 区和其中一个 Survivor 区（假设为 From Survivor 区）中存活的对象复制到另一个 Survivor 区（To Survivor 区）中，然后清空 Eden 区和 From Survivor 区。在这个过程中，大部分对象都是朝生夕灭的，只有少量存活对象需要复制，从而在一定程度上提高了内存利用率。并且，对象在 Survivor 区中每熬过一次 Minor GC，年龄就增加 1 岁，当年龄达到一定阈值（默认 15 岁）时，就会被晋升到老年代。

标记 - 整理算法

标记 - 整理算法（Mark-Compact）是在标记 - 清除算法的基础上发展而来的，主要针对老年代对象存活率高的特点进行设计。它的标记阶段与标记 - 清除算法相同，也是从根对象出发，通过可达性分析算法标记出所有存活的对象。

但是，在标记完成后的处理方式上，标记 - 整理算法与标记 - 清除算法有着本质的区别。标记 - 整理算法不会直接清理掉未标记的对象，而是将所有存活的对象向内存的一端移动，使存活对象紧密排列在一起，然后直接清理掉边界以外的内存空间，这些被清理的空间就是原来垃圾对象所占用的空间。可以把这个过程类比为整理书架，先把有用的书挑出来，然后把这些书紧密地排列在书架的一端，剩下的空白部分就是可以清理的空间。

标记 - 整理算法的优点在于它解决了标记 - 清除算法的内存碎片问题，同时也避免了复制算法内存利用率低的缺点。通过将存活对象移动到一起，保证了内存的连续性，使得后续在老年代分配大对象时，能够更容易找到足够大的连续内存块，提高了内存分配的成功率和效率。尤其适合老年代这种对象存活率高、对象生命周期长的场景，因为在老年代中，如果频繁产生内存碎片，会对程序性能产生较大的负面影响。

不过，标记 - 整理算法也并非完美无缺。由于在整理过程中需要移动存活对象，这会带来一定的性能开销。移动对象时，不仅需要修改对象的内存地址，还可能涉及到对象之间引用关系的调整，这都需要消耗一定的时间和资源。而且，移动对象的过程可能会导致程序暂停（Stop-The-World）的时间变长，影响程序的响应性。

分代收集理论与算法应用

分代收集理论

分代收集理论是现代 JVM 垃圾收集器设计的重要基础，它的核心思想是根据对象的存活周期不同，将 Java 堆内存划分为不同的区域，通常分为新生代（Young Generation）和老年代（Old Generation）。

在程序运行过程中，新创建的对象大多具有较短的生命周期，它们往往在创建后不久就不再被引用，成为垃圾对象，这些对象被分配到新生代。而那些经过多次垃圾回收仍然存活的对象，通常具有较长的生命周期，会被晋升到老年代。这种划分方式就好比将图书馆的书籍按照借阅频率分类存放，经常被借阅（存活周期短）的书籍放在一个区域，方便快速查找和管理；而那些很少被借阅（存活周期长）的书籍放在另一个区域，减少对它们的频繁操作。

分代收集理论基于两个重要的经验法则：一是绝大多数对象都是朝生夕死的，这意味着新生代中的对象存活率较低，大部分对象在新生代的几次垃圾回收中就会被回收；二是熬过多次垃圾回收的对象就越难回收，老年代中的对象存活率高，回收成本相对较高。通过对不同代的对象采用针对性的垃圾收集算法，可以显著提高垃圾收集的效率和性能。

新生代与老年代的算法选择

基于分代收集理论，新生代和老年代适合采用不同的垃圾收集算法。

新生代对象具有朝生夕死的特点，每次垃圾回收时都有大量对象死去，只有少量对象存活。在这种情况下，复制算法非常适合新生代的垃圾回收。因为复制算法在复制存活对象时，只需要复制少量存活对象，而大部分死亡对象不需要复制，直接清理掉原来的内存区域即可，这样可以大大减少复制操作的开销，提高垃圾回收效率。并且，复制算法可以保证内存空间的连续性，避免内存碎片的产生，使得新生代在频繁的对象创建和回收过程中，内存分配能够高效进行。例如，在一个 Web 应用程序中，大量的请求处理过程中会创建许多临时对象，如请求参数对象、响应结果对象等，这些对象在请求处理完成后就不再需要，它们在新生代中被快速创建和回收，复制算法能够很好地适应这种场景。

老年代对象的存活率高，对象生命周期长。如果在老年代使用复制算法，由于存活对象较多，复制操作的开销会非常大，而且老年代没有额外的空间对其进行分配担保，所以复制算法不太适合老年代。通常，老年代采用标记 - 清除算法或者标记 - 整理算法。标记 - 清除算法虽然会产生内存碎片，但实现相对简单，在老年代对象分布比较分散，内存碎片对性能影响不大的情况下，可以使用。而标记 - 整理算法则通过将存活对象移动到一起，避免了内存碎片问题，提高了内存利用率，更适合老年代中对象存活率高、需要频繁分配大对象的场景。比如，在一个大型数据库应用中，数据库连接对象、缓存对象等通常会存活较长时间，被存储在老年代，标记 - 整理算法能够有效地管理这些对象的内存空间。

实际应用与性能优化

不同场景下的算法选择

在实际应用中，选择合适的垃圾收集算法对于优化 JVM 性能至关重要，需依据具体的应用场景来做出决策。

在高并发场景下，如大型电商平台在促销活动期间，大量用户同时访问系统，对响应时间要求极高。此时，CMS（Concurrent Mark Sweep）收集器或 G1（Garbage First）收集器是比较好的选择。CMS 收集器以获取最短回收停顿时间为目标，其大部分工作可以与用户线程并发进行，能有效减少垃圾收集时的停顿时间，确保系统在高并发情况下仍能快速响应用户请求。而 G1 收集器则将堆划分为多个大小相等的区域，不再严格区分新生代和老年代，通过优先处理收集回报较高的区域，实现了低停顿和高效的垃圾回收，也非常适合高并发场景。

对于大数据量处理的场景，例如数据挖掘和分析任务，通常会涉及到对海量数据的加载、处理和存储，这会导致大量的对象创建和销毁，对内存管理的要求很高。Parallel Scavenge 收集器更适合这类场景，它是 “吞吐量优先” 的收集器，通过多线程进行垃圾收集，能够在单位时间内完成尽可能多的任务，充分利用 CPU 资源，提高数据处理的效率。同时，Parallel Old 收集器作为 Parallel Scavenge 收集器的老年代版本，支持多线程并发回收，也能很好地配合新生代的垃圾回收工作，共同应对大数据量处理时的内存管理挑战。

在单处理器环境或对内存管理开销要求最小的场景，如一些桌面应用程序，Serial 收集器是不错的选择。它是一个单线程收集器，虽然在进行垃圾收集时会暂停其他所有工作线程（Stop-The-World），但由于没有线程交互的开销，实现简单且高效，能够在资源有限的情况下，以最小的内存管理开销完成垃圾回收任务。

性能优化建议

为了进一步优化 JVM 垃圾收集的性能，可以从以下几个方面入手：

调整堆大小：合理设置堆的初始大小（-Xms）和最大大小（-Xmx）至关重要。如果堆大小设置过小，会导致频繁的垃圾回收，影响系统性能；而设置过大，则可能浪费系统资源，甚至导致 OutOfMemoryError 异常。例如，对于一个内存需求相对稳定的应用程序，可以将初始堆大小和最大堆大小设置为相同的值，避免堆的动态扩展和收缩带来的性能开销。同时，还可以根据应用程序的特点，调整新生代和老年代的比例（-XX:NewRatio），如果应用程序中短期存活的对象较多，可以适当增大新生代的大小，减少老年代的压力。

设置垃圾收集器参数：不同的垃圾收集器有各自的参数可供调整，以满足不同的性能需求。以 Parallel Scavenge 收集器为例，可以通过 - XX:MaxGCPauseMillis 参数来控制最大垃圾收集停顿时间，通过 - XX:GCTimeRatio 参数直接设置吞吐量大小。但需要注意的是，调整这些参数时需要综合考虑，因为降低停顿时间可能会牺牲吞吐量，反之亦然。对于 G1 收集器，可以通过 - XX:G1HeapRegionSize 参数设置堆区域的大小，通过 - XX:MaxGCPauseMillis 参数设置最大停顿时间目标，优化垃圾回收的效果。

启用 GC 日志：启用 GC 日志（-XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:gc.log）可以详细记录垃圾回收的过程和相关信息，包括垃圾回收的时间、停顿时间、回收的内存大小等。通过分析这些日志，可以深入了解应用程序的内存使用情况，找出垃圾回收频繁或停顿时间过长的原因，进而针对性地调整垃圾收集器参数或优化代码。例如，如果发现老年代频繁进行 Full GC，可以检查是否存在对象晋升过快、老年代空间不足等问题，并相应地调整新生代与老年代的比例、大对象直接进入老年代的阈值（-XX:PretenureSizeThreshold）等参数。

代码优化：在编写 Java 代码时，应尽量减少不必要的对象创建和销毁。例如，避免在循环中创建大量临时对象，可以将对象的创建移到循环外部，或者使用对象池来复用对象。同时，合理使用缓存技术，减少对数据库或远程服务的频繁访问，降低因数据加载和处理导致的内存压力。另外，及时释放不再使用的资源，如关闭数据库连接、释放文件句柄等，防止资源泄漏，减轻垃圾回收的负担。

总结

JVM 垃圾收集算法作为 Java 内存管理的核心，在 Java 应用的性能表现中扮演着举足轻重的角色。从垃圾的判定，到经典算法的运作，再到分代收集理论的实践，以及在实际应用中的优化策略，每一个环节都紧密相扣，共同构建起 Java 高效、稳定的内存管理体系。

引用计数法和可达性分析算法为垃圾的准确判定提供了基础，前者简单直观却受限于循环引用，后者则凭借 GC Roots 的搜索机制，成为 Java 判定对象存活的中流砥柱。标记 - 清除、复制、标记 - 整理等经典算法各有千秋，分别在不同方面满足了垃圾收集的需求，尽管它们各自存在着诸如效率低下、内存浪费、对象移动开销大等问题，但也推动了垃圾收集算法的不断演进。

分代收集理论的诞生，是垃圾收集领域的一次重大突破。它基于对象存活周期的不同，将 Java 堆内存巧妙地划分为新生代和老年代，针对不同代的特点量身定制垃圾收集算法，极大地提升了垃圾收集的效率和性能。新生代中，大量对象朝生夕死的特性使得复制算法得以大显身手；而老年代里，对象存活率高的情况则促使标记 - 清除算法和标记 - 整理算法发挥各自的优势。

在实际应用中，垃圾收集算法的选择直接关系到 Java 应用的性能。高并发场景下，CMS 和 G1 收集器以其低停顿的特性，保障了系统的快速响应；大数据量处理场景中，Parallel Scavenge 收集器凭借 “吞吐量优先” 的优势，高效地完成数据处理任务；单处理器环境下，Serial 收集器则以最小的内存管理开销，满足了应用的基本需求。

通过调整堆大小、设置垃圾收集器参数、启用 GC 日志以及优化代码等措施，可以进一步提升 JVM 垃圾收集的性能。这些优化建议并非孤立存在，而是需要根据具体的应用场景和性能需求，综合运用，才能达到最佳的优化效果。