Java 面试必问：HashMap 底层原理，从数组 + 链表到红黑树，一文读懂

技术文档

在 Java 的集合框架中，HashMap 无疑是使用频率最高的键值对存储工具之一。无论是日常开发还是面试场景，理解它的底层原理都至关重要。从早期版本的 “数组 + 链表” 结构，到 JDK 1.8 引入红黑树优化，HashMap 的演进始终围绕着查询效率与空间利用率的平衡。接下来，我们将逐层剖析其底层实现，揭开哈希表的神秘面纱。

一、HashMap 的核心结构：数组作为基石

HashMap 的底层存储始于一个数组（在源码中称为table），数组中的每个元素被称为 “桶”（Bucket）。每个桶中存储的是键值对（Entry 或 Node 对象），这些对象通过哈希值确定在数组中的位置。

数组的优势在于随机访问效率极高（时间复杂度为 O (1)），但劣势是容量固定且插入删除成本高。为了弥补这一缺陷，HashMap 结合了链表（及后续的红黑树）来处理哈希冲突，形成 “数组 + 链表 / 红黑树” 的复合结构。

1. 哈希值与索引计算

当我们向 HashMap 中插入键值对（key, value）时，首先需要通过 key 的哈希值计算其在数组中的索引位置，步骤如下：

调用 key 的hashCode()方法获取原始哈希值（int 类型，32 位）。

为了减少哈希冲突，HashMap 会对原始哈希值进行二次哈希：(h = key.hashCode()) ^ (h >>> 16)。这一步将高 16 位与低 16 位异或，目的是让哈希值的高位也参与索引计算，降低因低位重复导致的冲突概率。

最终索引通过(n - 1) & hash计算（n 为数组长度）。由于 HashMap 的数组长度始终是 2 的幂次方，n - 1的二进制表示为全 1（如 n=16 时，n-1=15 即 1111），此时&运算等价于取模操作，但效率更高。

2. 数组初始化与默认参数

HashMap 在首次插入元素时会初始化数组，默认初始容量为 16（DEFAULT_INITIAL_CAPACITY），负载因子为 0.75（DEFAULT_LOAD_FACTOR）。负载因子是判断是否需要扩容的阈值，计算公式为：当前元素数量 > 容量 × 负载因子时触发扩容。

0.75 的负载因子是权衡空间与时间的结果：值过高会导致哈希冲突增多，查询效率下降；值过低则会浪费存储空间。

二、哈希冲突与链表：解决碰撞的早期方案

当两个不同的 key 计算出相同的索引时，就会发生哈希冲突。在 JDK 1.8 之前，HashMap 通过链表来处理冲突：数组的每个桶中存储链表的头节点，新插入的冲突元素会被添加到链表的尾部（JDK 1.7 及之前为头部插入，存在并发死链问题，1.8 改为尾部插入）。

1. 链表的查询效率瓶颈

链表的查询时间复杂度为 O (k)，其中 k 是链表长度。当哈希冲突严重时，链表会变得很长，此时 HashMap 的查询效率会从接近 O (1) 退化到 O (n)。例如，若所有元素都哈希到同一个桶中，HashMap 就退化为单链表，性能急剧下降。

2. 链表节点的结构

JDK 1.8 中，链表节点由Node类实现，包含四个字段：

final int hash：key 的二次哈希值

final K key：键

V value：值

Node next：下一个节点的引用

三、红黑树：JDK 1.8 的性能优化

为解决长链表的查询效率问题，JDK 1.8 引入了红黑树（Red-Black Tree）结构：当链表长度超过阈值（默认为 8，TREEIFY_THRESHOLD），且数组容量不小于 64（MIN_TREEIFY_CAPACITY）时，链表会被转换为红黑树。

1. 红黑树的优势

红黑树是一种自平衡的二叉查找树，其查询、插入、删除的时间复杂度均为 O (log k)，远优于长链表的 O (k)。这使得 HashMap 在哈希冲突较严重时仍能保持高效性能。

红黑树的平衡通过以下规则保证：

节点要么是红色，要么是黑色。

根节点是黑色。

所有叶子节点（NIL 节点）是黑色。

红色节点的子节点必须是黑色。

从任一节点到其所有叶子节点的路径包含相同数量的黑色节点。

2. 树节点的结构

红黑树节点由TreeNode类实现，继承自Node，并增加了父节点、左右子节点引用及颜色标记：

TreeNode parent：父节点

TreeNode left：左子节点

TreeNode right：右子节点

TreeNode prev：链表中的前驱节点（便于在树与链表间转换）

boolean red：节点颜色（true 为红色，false 为黑色）

3. 树与链表的转换阈值

树化阈值（8）：链表长度达到 8 时尝试转为红黑树。这个值基于泊松分布计算：在负载因子为 0.75 的情况下，链表长度超过 8 的概率仅为 0.00000006，几乎是小概率事件，说明此时哈希函数可能存在问题，需要红黑树优化。

链化阈值（6）：当红黑树节点数量减少到 6 时，会重新转为链表。设置该阈值是为了避免链表与树频繁转换导致的性能开销。

最小树化容量（64）：若数组容量小于 64，即使链表长度超过 8，也不会树化，而是优先扩容数组。这是因为小容量数组扩容成本低，扩容后可分散元素，减少冲突。

四、扩容机制：动态调整数组大小

当 HashMap 中的元素数量超过 “容量 × 负载因子” 时，会触发扩容（resize）。扩容的本质是创建一个新的更大容量的数组，并将原数组中的元素重新哈希到新数组中。

1. 扩容的步骤

计算新容量：默认情况下，新容量为原容量的 2 倍（保证仍是 2 的幂次方）。

创建新数组：容量为新容量。

重新哈希（rehash）：遍历原数组中的每个桶，将元素重新计算索引并放入新数组。由于新容量是原容量的 2 倍，n - 1的二进制表示会多一个高位 1，此时元素的新索引要么是原索引，要么是原索引 + 原容量（无需重新计算哈希值，仅通过高位判断即可，优化了效率）。

替换原数组：将新数组赋值给table，并更新容量和阈值。

2. 扩容的性能开销

扩容过程需要遍历所有元素并重新计算索引，时间复杂度为 O (n)，因此频繁扩容会影响性能。在开发中，若能预估元素数量，可在初始化时指定合适的容量（如new HashMap(1024)），减少扩容次数。

五、线程安全性与其他注意事项

线程不安全：HashMap 在多线程环境下进行插入、扩容等操作时，可能导致数据丢失、链表死循环（JDK 1.7 及之前）等问题。如需线程安全，可使用ConcurrentHashMap，或通过Collections.synchronizedMap()包装，但后者性能较差。

key 的不可变性：作为 key 的对象应保证不可变（如String、Integer），否则修改 key 的值会导致哈希值变化，进而无法正确查询到对应的 value。

null 值支持：HashMap 允许 key 和 value 为 null（key 仅允许一个 null，存储在索引 0 的位置），而Hashtable则不允许。

六、总结

HashMap 的底层原理是 “数组 + 链表 + 红黑树” 的复合结构，其设计围绕高效查询与空间利用的平衡：

数组提供 O (1) 的随机访问能力，是整个结构的基石。

链表用于处理哈希冲突，但在长度过长时会导致性能下降。

红黑树在链表过长时介入，将查询效率从 O (k) 提升到 O (log k)。

扩容机制通过动态调整数组大小，维持哈希表的负载平衡。

理解这些原理不仅能帮助我们在面试中应对自如，更能在实际开发中合理使用 HashMap，规避性能陷阱，写出更高效的代码。

Java 面试必问：HashMap 底层原理，从数组 + 链表到红黑树，一文读懂

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Java 面试必问：HashMap 底层原理，从数组 + 链表到红黑树，一文读懂

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签