当前位置：数据分析 > 彻底理解hashMap底层原理

彻底理解hashMap底层原理

发布：2023-10-01 10:14

讲解

HashMap在java1.7和java1.8版本中做了一些调整。我们这篇文章只讲java1.7的hashMap。

数据结构

hashMap的数据结构由数组和链表组成。 Table是一个存储Entry对象的数组。每个Entry对象由4个属性组成，分别是key、value、next、hash，key和value是众所周知的键值对，不需要过多解释。 next是当前元素对链表中下一个元素的引用，hash是计算出来的hashcode，hashMap中的hsah是通过key.hashcode()进行某些操作得到的值，并不是直接使用key计算出来的值.hashcode() 方法。属性信息我们先来了解一下hashMap中的一些重要属性//Hashmap的初始大小，初始值为16，1右移4位为16 static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; //HashMap是动态扩展的，即capacity大小不能大于1<<30 static final int MAXIMUM_CAPACITY = 1 << 30; //默认扩展因子，这个值可以是通过构造修改 static final float DEFAULT_LOAD_FACTOR = 0.75f; //空数据，默认构造时分配一个空的Entry数组。添加元素时， //会判断table=EMPTY_TABLE，然后扩容 static Final Entry [] EMPTY_TABLE = {}; //表示一个空的Hashmap trans入口入口[] table = (Entry[]) EMPTY_TABLE; //H ashmap的大小 transient int size; //阈值表示当HashMap 的大小大于阈值。 DEFAULT_INITIAL_CAPACITY=16 //扩展阈值 int阈值; //扩展因子，如果不传入，默认DEFAULT_LOAD_FACTOR = 0.75f 最终浮动 loadFactor; //数据操作次数，用于迭代检查修改异常 transient int modCount; static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;放置方法步骤：

判断表是否为空。如果为空，则初始化。如果不为空，则进入下一步

判断key是否为空。如果为null，则进行处理。如果不为空，则进行下一步

根据键

计算下标

如果下标处的桶不为空，则从下标开始遍历链表。如果找到具有相同key的bucket，则更新覆盖并返回旧值。如果为空，则进入下一步

插入前请确定是否需要扩容。如有必要，请扩大容量。如果没有，请进行下一步

将头部插入桶中

接下来我们将分别讨论每个步骤1.表初始化数组初始化其实包括三个步骤：计算数组容量、创建数组、判断是否rehash「数组容量」：如果指定的数组长度值大于MAXIMUM_CAPACITY（最大数组容量：2的30次方），则使用最大值；如果指定的数组长度值小于或等于1，则使用1；如果指定数组长度值大于1，则使用以下方法获取大于或等于指定数组长度的前2个n次方值。 Integer.highestOneBit((number - 1) << 1) public static int highestOneBit(int i) { // HD，图3-1 i |= (i >> 1 ); i |= (i >> 2); i |= (i >> 4); i > 16); 返回 i - （我>>> 1）；这个方法里面是通过位移运算得到的值。如果有兴趣可以直接看源码。「创建数组」：直接使用计算出的数组长度创建Entry数组表，元素类型为Entry。「判断hash是否重复」：双重哈希就是对同一个key重新计算哈希值，那么为什么需要重新计算哈希值呢？其实只是为了让hsah的价值观变得更加复杂而已。计算下标时，会进行更多的哈希处理，减少哈希冲突。那么什么条件下会进行重新哈希呢？从源码中我们可以看到，切换为true就意味着需要重新hash。影响开关值的是下面的代码 final boolean initHashSeedAsNeeded(int capacity) { // hashSeed 初始值为 0, false boolean currentAltHashing = hashSeed != 0; // 是数组长度>= 2^31 -1 boolean useAltHashing = sun.misc.VM.isBooted() && (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD); // 使用 XOR，currentAltHashing 为假，仅当数组长度 >= 2^31-1 时，返回 true boolean Switching = currentAltHashing ^ useAltHashing; //切换到true ，然后 hashSeed被重新分配（一般不会出现） if（切换）{ sun.misc.Hashing.randomHashSeed(this) : 0; } 返回切换； } initHashSeedAsNeeded方法用于判断是否重新哈希。如果需要重新哈希，则会同步更新哈希种子，最终返回一个boolean类型值。 sun.misc.VM.isBooted()指jvm运行状态，通常为true； hashSeed 初始为 0，因此 currentAltHashing 必须为 false； Holder.ALTERNATIVE_HASHING_THRESHOLD 采用环境变量 jdk.map.althashing.threshold 配置的值（程序员配置）。如果没有配置，则默认为Integer.MAX_VALUE。通过上面的分析，我们可以知道是否进行重新哈希只会受到容量>=Holder.ALTERNATIVE_HASHING_THRESHOLD的影响。？是2的30次方，而Integer.MAX_VALUE的值为2的31次方减1，也就是说这个条件永远不会满足，但是你可能会说扩容时传入的容量正好是30倍2的最大值是2的2次方，但是我会告诉你，如果数组达到2的30次方，就不允许扩展。所以如果程序员不设置环境变量的话，initHashSeedAsNeeded方法其实是没有意义的。那为什么需要更新哈希种子呢？现在我们需要了解hsah价值观是如何产生的：最终 int hash（对象 k）{ int h = hashSeed; if (0 != h && k 字符串实例) { 返回 sun.misc.Hashing.stringHash32((String) k); } h ^= k.hashCode() ; h ^= (h >>> 20) ^ (h >>> 12); 返回 h ^ (h >>> 7) ^ (h >>> 4); } hashMap的hsah值是通过key调用自身的hashCode方法和hashSeed得到的值进行5或4次位移操作得到的。所以同一个key只有改变hashSeed后才会生成不同的哈希值。否则，总是会生成相同的hsah值，所以当需要重新散列时，必须更改hashSeed，否则重新散列的结果将与原始结果相同。。 2。处理 key 为 null private V putForNullKey(V value) { // 当 key 为 null 时，指定数组下标为 0 for (Entry e = table [0] ; e != null; e = www.sychzs.cn) { // 判断是否存在key为null的Entry if (e.key == null) { // 将 value 替换为新值，返回旧的 value 返回旧值; 或者如果没有key匹配null，则创建一个Entry并将其放入table[0 ] en Adinery (0, NULL, value, 0); Roturn 空； } 上面的代码是处理key为null的情况。它还表明哈希图允许键为空。从上面可以看出，hashMap中key为null的元素只会存储在数组下标0中。bucket中，如果有多个bucket，则遍历链表找到key为null的元素null 并覆盖并更新它。如果桶中没有元素，则调用addEntry方法插入元素。这里只需要知道调用addEntry方法的结果是将数据插入到数组中即可。在索引为0的桶中，我们下面详细看看addEntry方法。 3。计算下标 //获取密钥的hash值 int hash = hash (key); // 根据哈希 value 和数组长度计算要放置的数组下标位置 int i = indexFor(hash, table.length); 计算下标实际上分为两个步骤，计算hsah值和计算下标。计算下标的原理是用哈希值除以数组容量，余数就是下标。这样就可以保证不同的key一定会被放在数组中的某个bucket中，不会越界。哈希值可以使数组中不同键的分布充分分散，减少hsah冲突。最终 int hash（对象 k）{ int h = hashSeed; if (0 != h && k 字符串实例) { 返回 sun.misc.Hashing.stringHash32((String) k); } h ^= k.hashCode() ; h ^= (h >>> 20) ^ (h >>> 12); 返回 h ^ (h >>> 7) ^ (h >>> 4); } 哈希方法上面已经说了。我们再谈谈吧。我们知道，Java中的每个类默认都是通过hashcode方法生成hashcode的。但是hashMap中并没有这个方法直接生成的hashcode，而是通过它生成的hashcode。 Hahshcode 使用哈希种子执行 OR 和位移运算。 1.7 hashMap在计算hsah时，进行了5次OR运算和4次位移运算。这样做的目的是为了让不同key计算出的hash更加分散、更加准确。减少哈希冲突。？ (长度-1); }上面我们说过用hash除以数组容量来得到数组下标，但是这个方法在java中太慢了，相当于这个方法的一个方法是h&(length-1)，即数组容量减1并与hash进行&运算。这个方法在java中是非常高效的。 4。遍历寻找钥匙到这里，数组已经有了，key对应的下标也有了。下一步是插入操作。插入之前会先检查下标对应的桶是否为空。如果不为空，先遍历查找是否有相同的key。 for (Entry e = table[i]; e != null; e = www.sychzs.cn) { Object k; // 判断键值是否存在相等 if (e.hash == hash && ((k = e.key) == key || key.equal s(k))) { // key 如果值相等则写入新的 value 值，返回旧的 value V oldValue = e.value; e.value = value ; e .recordAccess (this); return oldValue; modCount ++; //下标位置为空或者没有匹配的key值，创建Entry放入链表 addEntry(哈希,密钥,value,i);因为hashMap是由数组和链表组成，而数组的每个桶又由链表组成，所以需要遍历链表来查找相同的key。如果存在相同的密钥，则更新并覆盖它。如果没有，则调用addEntry方法插入。。 //addEntry方法 void addEntry(int hash, K key, V value, int bucketIndex) { // 如果当前数组长度>=扩展阈值和当前数组索引位置不为空 if ((size >= Threshold) && (null != table[bucketIndex])) { *2 resize( 1 hash = (null != key) ? hash(key) : 0; 值和新数组长度计算下标位置 bucketIndex = indexFor( hash, table.length); } // 创建Entry并放入表中 createEntry( hash, key, value,桶索引）; } 可以看到，在正式添加元素之前，会判断是否需要扩容，如果需要，会先进行扩容。 5。扩容处理从上面的源码中我们可以知道，扩容需要满足两个条件：

数组长度达到阈值。阈值根据负载系数和阵列容量计算

当前数组下标对应的桶不为空

如果满足条件，则进入resize方法进行扩展void resize(int newCapacity) { // 原始数组 Entry[] oldTable = table; // 原始数组长度 int oldCapacity = oldTable.length; //如果原数组长度为2^30，不进行扩容，则扩容阈值为2^31-1 if (oldCapacity == MAXIMUM_CAPACITY) { th reshold = Integer. MAX_VALUE; return; } // 根据新的数组长度，创建一个数组 Entry[] newTable = new条目[新容量]; / / 传输数组数据 // 调用 initHashSeedAsNeeded 方法，根据新数组的长度判断是否重新分配 hashSeed transfer(newTable, initHashSeedAsNeeded(newCapacity)); // table 指向新数组 table = newTable; // 计算新的扩容阈值 Threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1) ; } //转移方法 void转移(Entry[] newTable , boolean rehash) { //新数组长度 int newCapacity = newTable.length; // 遍历原数组的 Entry for ( Entry e : table) { // Entry 不为空 ull != e) { // 如果 hashSeed 发生变化，则重新计算 hash 计算。钥匙）; } // 重新计算数组结算，结果分为两种： 1. 原来的出价已经拉低了 2. 这次扩容是多久 int i = indexFor ( e.hash, newCapacity); //Entry的next指向新数组的链表头 www.sychzs.cn = newTable[i]; 。 newTable[i] = e; 接下来的操作就是原数组链表的下一个扩展步骤：首先传入的newCapacity是数组容量的2倍，也是2的n次方如果数组容量已达到2的30次方，则不进行扩容，直接返回创建具有新数组长度 newCapacity 的 Entry 数组 initHashSeedAsNeeded 确定是否重新哈希并更新哈希种子传输方法进行扩展处理「传输方法进行特定的扩展处理：」其实就是遍历旧数组，从旧数组的第一个桶中获取链表，从链表头部开始遍历，逐一取出新的下标（如果需要的话rehash，你将使用新的 hsah) 种子计算hsah值。如果不需要rehash，就使用原来的hsah值。最后用hsah值和新数组容量计算下标），然后用头插值法插入到新数组中。「你会发现两条规则：」原数组中的链表和新数组中的链表顺序相反。计算出的新下标要么等于原始下标值，要么等于原始下标加上扩展长度。我们通过一个例子来分析一下第二条规则。假设table.length=16，现在有两个key，key1对应的hash值为68，key2对应的hash值为84。根据公式h&(length-1)计算，&运算规则遇到 0 时为 0，结果如下： 68 键1 0100 0100 & 0000 1111 =0000 0100 =4 84 键2 0101 0100 & 0000 1111 =0000 0100 =4 可以看出，两个值都落在table[4]桶中。经过一次扩容后，table.length=32，然后根据公式h&(length-1)计算结果如下 68 键1 0100 0100 & 0001 1111 =0000 0100 =4 84 键2 0101 0100 & 0001 1111 =0001 0100 =20 可以看到68仍然放在新数组的table[4]中，而84则放在table[20]中再次展开后，table.length=64，根据公式h&(length-1)计算结果如下 68 键1 0100 0100 & 0011 1111 =0000 0100 =4 84 键2 0101 0100 & 0011 1111 =0001 0100 =20 可以看到，这两个值还在原数组下标对应的桶中。结论：同一个桶内的链表数据扩容后，新数组中的下标要么与原数组相同，要么是原数组下标加上扩容后的长度。这个图案是怎么形成的呢？这是因为数组的容量是2的n次方。数组每次扩容的结果都是原来数组容量的两倍。例如：16,32,64...，length-1的结果分别为15,31,63，对应的二进制如下： 0000 1111 0001 1111 0011 1111 可以看到，每次扩容时，高位都会加1，也就是说计算的时候，只需要看哈希值中高位对应的位是0还是1 ，这也会导致新数组中的下标。只有两种可能：如果是0，下标不会改变，如果是1，下标会改变。这个规则有什么好处？这个规则可以让原本在同一个桶中的数据分散到其他桶中，使得数组分区更加均匀，减少哈希冲突。在扩容过程中，同一个桶中的数据将被分区到新的数组中。只需判断高位就可以确定桶中的哪个桶，因此可以利用它来优化膨胀效率。 6。头部插入方式 //createEntry方法 void createEntry(int hash, K key, V value, int bucketIndex) { // 获取当前数组索引处的链表头position Entry e = table[bucketIndex]; // 在链表头部创建一个新的 Entry，next 指向原链表头（头插入方式） table[ bucketIndex] = new Entry<>(hash, key, value, e); // 数组长度 +1 size++; } 头部插值方法的源代码非常简单。就是创建一个新的Entry对象。新Entry对象的next属性指向当前坐标处的头部Entry对象，然后将新Entry对象引用赋给当前数组下标。这里的文字描述可能比你自己阅读源码还要晦涩难懂。自己看源码应该就清楚了。问题总结为什么要计算第一个大于等于指定数组长度的2的n次方值只有当数组长度为2的n次方，且数组长度-1转换为二进制时，才能转换为低位全部为1的二进制，与哈希值的&运算可以等价以哈希值除法根据数组容量求余的结果。为什么要使用头部穿透？其实无论是头插入还是尾插入，都需要遍历链表。如果遍历过程中发现相同的key，则会更新并覆盖。在这种情况下，不会有插入操作，因此头部插入方法并不重要。和尾部插入，但是如果没有找到相同key的元素，那么此时肯定已经遍历完链表尾部了，所以任何插入，无论是头插入还是尾插入，都不会节省遍历时间链表，并且因为插入链表只是替换了next属性的指针，所以两种插入方式的效率没有区别。 Java 1.7之所以采用头部插值，应该和其自身的代码结构有关，因为插入方法是独立的。如果使用尾部插值，则遍历时必须记录最后一个元素的值，而头部插值则没有必要，但我认为这不是主要原因。就我个人而言，我认为Java开发人员只需选择两者之一即可。没有特殊考虑，否则不会出现循环链表问题。为什么 hashMap 线程不安全 hashMap线程不安全主要表现在两个方面多线程插入数据时，数据丢失问题 void createEntry(int hash, K key, V value, int bucketIndex) { Entry e = table[bucketIndex ]; table[ BucketIndex] = 新条目<>（哈希，键，value，e）; 大小++; } 以上是头部插入方法的代码逻辑。多线程操作下，如果两个线程同时走到方法中的第一行，那么得到的e是相同的，然后两个线程分别创建Entry对象，并且给Entry对象的next属性赋值e值，这样一个线程的数据就会一直丢失。多线程情况下扩展时可能会出现循环链表循环链表发生在多线程扩展的情况下。以下是部分扩展代码： for（条目 e ：表）{ 而（空！= e）{ “条目 next = www.sychzs.cn; if（重排）{ e.hash = null == e.key ? 0 : hash(e.key); } int i = indexFor(e.hash, newCapacity); | 这段代码的逻辑是使用头插值的方式将旧数组中的数据从链表头部一一插入到新数组中。假设有两个线程同时扩展，并且两个线程都执行以下代码行：条目 next = www.sychzs.cn; 此时第一个线程继续执行，第二个线程卡住了。直到第一个线程的整个循环完成后，第二个线程才会继续执行。此时第一个线程的扩容完成，链表指向与原数组相反的顺序。假设原数组的一个bucket中链表的方向为1>2>3>4，扩容后恰好落入同一个新的bucket中，那么新的链表方向为4>3>2 >1. 此时第二个线程开始执行循环：第一轮循环开始。 e指的是1，next指的是2。head插值方法插入一个新数组。新数组的链表为1>null 第二轮循环开始。 e指的是2，next指的是1。head插值方法插入一个新数组。新数组的链表为2>1>null 第三轮循环开始。 e 指 1，next 指 null。 head插值方法插入一个新数组。新数组的链表为1>2>1 这时候就出现了循环链表。相关文章 Docker 安全和日志管理 2023-10-05 07:47 Docker 安全和日志管理 2023-10-05 07:47 docker：搭建ELK开源日志分析系统 2023-10-05 07:47 【第246期】面试官：说说你对RabbitMQ的 2023-10-05 07:18 【第246期】面试官：说说你对RabbitMQ的 2023-10-05 07:18 最新资讯【WIN】svchost与共享进 2023-10-05 08:06 win7开机后svchost.e 2023-10-05 08:06 keil4和keil5区别_ke 2023-09-26 04:06 STM32开发板连接电脑（stm 2023-09-26 04:09 mpi配置vs2010_Win1 2023-09-26 04:09 Android安全之WebVie 2023-09-26 04:12 Unity入门&物理引擎 2023-09-26 04:12 Unity堆内存优化 2023-09-26 04:12 【Unity3D】枪战游戏—发射 2023-09-26 04:15 gcc编译stm32无法运行（g 2023-09-26 04:18 热门推荐【WIN】svchost与共享进 2023-10-05 08:06 win7开机后svchost.e 2023-10-05 08:06 keil4怎么改成中文界面_怎么 2023-09-26 04:21 keil5使用心得_keil5的 2023-09-26 04:21 成品232串口线线序（232串口 2023-09-26 04:24 Java IO流之字符流与高效 2023-09-26 04:27 Python使用seleniu 2023-09-26 04:27 Java代码审计 2023-09-26 04:27 5.22作业 2023-09-26 04:30 [系统教程]宏碁非凡X14如何重 2023-09-26 04:33 COPYRIGHT © 三优创华科技网. ALL RIGHTS RESERVED. | 京ICP备14051032号