概述

对于从事C、C++程序开发的开发人员来说,他们既拥有每个对象的“所有权”,又担负着每一个对象生命开始到终结的维护责任。

对于java程序员来说,在虚拟机自动内存管理机制的帮助下,不再需要对每个对象都去写配对的delete/free代码,不容易出现内存泄漏和内存溢出问题。
但也正是因为这样,一旦出现了内存泄漏和内存溢出的问题,如果不了解虚拟机是如何使用内存的,那么排错将会成为一项异常艰难的工作。

运行时数据区域

运行时数据区域
运行时数据区域

程序计数器

它是一块很小的内存空间,可以把它看做当前线程所执行的字节码的行号指示器。分支、循环、跳转、异常处理等基础功能都是依赖它完成的。

如果线程执行的是个java方法,这个计数器记录的是正在执行的虚拟机字节码指令的地址;如果线程执行的是个Native方法,这个计数器值为空(Undefined)。

Native方法是指由其他编程语言编写,再由JVM调用的方法。

每个线程都有一个独立的程序计数器,各线程之间的计数器互不影响,独立存储。我们称这类内存区域为“线程私有”的内存。

Java虚拟机栈

它也是线程私有的,其生命周期和线程相同。其描述的是Java方法执行的内存模型:每个方法在执行的同时都会创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口等信息。一个方法从执行到结束,对应一个栈帧在虚拟机栈的入栈到出栈的过程。

栈帧(Stack Frame):方法运行时的一种基础数据结构,详见第八章对帧的讲解

局部变量表存放了编译期可知的各种基本数据类型(boolean、byte、char、short、int、float、long、double)、对象引用(reference类型)和returnAddress类型。其中64位长度的long和double类型数据会占用2个局部变量空间(Slot),其他占1个。局部变量表需要的内存空间在编译期间完成分配,当进入一个方法时,这个方法需要在帧内分配多大的局部变量空间是完全确定的。

如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflewError异常;如果虚拟机栈可以动态扩展,但扩展时无法申请到足够的空间,就会抛出OutOfMemoryError异常。

本地方法栈

与虚拟机栈的作用相似。区别在于:虚拟机栈为虚拟机执行的Java方法服务,而本地方法栈则为虚拟机使用的Native方法服务。

与虚拟机栈一样,它也会抛出StackOverflewError和OutOfMemoryError异常

Java堆

对于大多数应用来说,Java堆是Java虚拟机所管理的内存中最大的一块。它是所有线程共享的一块内存区域,在虚拟机启动时创建这块区域的唯一目的就是存放对象实例,几乎所有的对象实例都在此分配。Java虚拟机规范里是这么描述的:“所有对象实例以及数组都要在堆上分配”。但随着JIT编译器的发展逃逸分析技术的逐渐成熟,栈上分配标量替换技术将会让这句话不再“绝对”。

逃逸分析与标量替换的相关内容,参照第11章

Java堆是垃圾收集器管理的主要区域,也被称为“GC堆”(Garbage Collected Heap)。Java堆可以处于逻辑上连续、物理上不连续的内存空间中。如果堆中没有内存完成实例分配,并且堆也没有再扩展时,将会抛出OutOfMemoryError异常。

方法区

与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。它还有个别名:NonHeap(非堆)。

Java虚拟机规范对方法区的限制非常宽松,除了和Java堆一样不需要连续的内存和可以选择固定大小或者可扩展外,还可以选择不实现垃圾收集。

当方法区无法满足内存分配需求时,将抛出OutOfMemoryError异常。

运行时常量池

运行时常量池(Runtime Constant Pool)是方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Constant Pool Table),用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。

既然它是方法区的一部分,那么当它无法申请到内存时也将抛出OutOfMemoryError异常。

直接内存

直接内存(Direct Memory)并不是虚拟机运行时数据区的一部分,也不是Java虚拟机规范中定义的内存区域。它属于本机内存。

当超过本机物理内存限制时,会出现OutOfMemoryError异常。

HotSpot虚拟机对象探秘

对象的创建

在语言层面,创建对象,只需要一个new关键字即可,而在虚拟机中,对象(限于普通java对象,不包括数组和Class对象)创建又是怎样一个过程呢

虚拟机遇到一条new指令时,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那必须先执行相应的类加载过程。

在类加载检查通过后,虚拟机将为新生对象分配内存。对象所需内存的大小在类加载完成后便可完全确定。

Java堆分配空间的方式:

  1. 假设Java堆中内存时绝对规整的,所有用过的内存放在一边,空闲的内存在另一边,中间放着一个指针作为分界点的指示器,那么只需将指针向空闲内存一侧移动所需内存即可完成分配。这种分配方式称为“指针碰撞”(Bump the Pointer)。
  2. 假如Java堆中内存并不是规整的,已使用的内存和空闲内存互相交错,虚拟机就必须维护一个列表,来记录哪块内存可用,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表。这种分配方式称为“空闲列表”(Free List)。

选择哪种分配方式由Java堆是否规整决定,而Java堆是否规整又由所采用的垃圾收集器是否带有压缩整理功能决定)

除了如何划分可用空间外,还有另外一个需要考虑的问题。

对象创建在虚拟机中是非常频繁的行为,在并发情况下也不是线程安全的。可能出现正在给对象A分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。

解决方案有两个:一种是对分配内存空间的动作进行同步处理;另一种是把内存分配的动作按照线程划分在不同的空间之中进行,即每个线程在Java堆中预先分配一小块内存,称为本地线程分配缓冲(Thread Local Allocation Buffer,TLAB),只有TLAB用完并需要分配新的TLAB时,才需要同步锁定。
虚拟机是否使用TLAB,可以通过-XX:+/-UseTLAB参数来设定

内存分配完成后,虚拟机需要将分配到的内存空间初始化为零值(不包括对象头),如果使用了TLAB,也可以在TLAB分配时初始化。这一步保证了对象在Java代码中不需要初始化也可以直接使用。

接下来,虚拟机要对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码等信息。这些信息存放在对象头(Object Header)中。

在上面的工作完成后,从虚拟机的视角来看,一个新的对象已经产生了,但从Java程序员的视角来看,对象创建才刚刚开始——方法还没有执行,所有字段都还为零。所以执行完new指令后会接着执行方法,把对象按照程序员的意愿进行初始化,这样一个对象才算完成了创建。

对象的内存布局

在HotSpot虚拟机中,对象在内存中存储的布局可以分为3块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。

对象头包括两部分信息。

第一部分用于存储对象自身的运行时数据。如:哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,这部分数据的长度在32位和64位虚拟机(未开启压缩指针)中分别为32bit和64bit,官方称它为“Mark Word”。

对象头的另外一部分是类型指针,即指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例。另外,如果对象是一个Java数组,那在对象头中还必须有一块记录数组长度的数据,因为虚拟机可以通过普通Java对象的元数据信息确定Java对象的大小,但从数组的元数据信息中却无法确定数组大小。

并不是所有虚拟机都必须在对象数据上保留类型指针,换句话说,查找对象的元数据信息不一定要经过对象本身,具体见下个部分的“对象访问定位”。

实例数据部分是对象真正存储的有效信息,也是在程序代码中所定义的各种类型的字段内容。无论是从父类继承的,还是子类定义的,都需要记录起来。这部分的存储顺序会受到虚拟机分配策略参数(FieldsAllocationStyle)和字段在Java源码中定义的顺序的影响。

对齐填充并不是必然存在的,它只起到占位符的作用。由于HotSpot VM的自动内存管理系统要求对象起始地址必须是8字节的整数倍,也就是说对象的大小必须是8字节的整数倍,而对象头部分正好是8字节的倍数(1倍或2倍),因此,当对象实例数据部分没有对齐时,就需要通过对齐填充来补全。

对象的访问定位

在Java虚拟机规范中,只规定了reference类型是一个指向对象的引用,并没有规定这个引用应该通过何种方式去定位、访问堆中的对象的具体位置。所以对象的访问方式取决于虚拟机如何来实现它。目前主流的访问方式有使用句柄和直接指针两种。

  • 如果使用句柄访问的话,那么Java堆中将会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自的具体地址信息。
    句柄方式访问对象
    句柄方式访问对象
  • 如果使用直接指针访问,那么Java堆对象的布局中就必须考虑如何放置访问类型数据的相关信息,而reference中存储的直接就是对象地址。
    直接指针方式访问对象
    直接指针方式访问对象

这两种访问方式各有优势。使用句柄来访问的最大好处就是reference中存储的是稳定的句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄的实例数据指针,而reference本身不需要修改。

使用直接指针访问方式的最大好处是速度更快,它节省了一次指针定位的时间开销。